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“互联 网 +” 的 大 潮 催生 了 诸如 “互联 网 + 外 卖 “ 互 联网 + 打车 “互联 网 + 家 政 ” 等 
众多 商业 模式 的 创新 和 创业 佳话 。 而 当 “ 互 联网 +” 已 被 写 入 教科 书 并 成 为 传统 行业 都 在 积 
极 戈 行 的 发 展 道路 时 ， 过 去 一 年 科技 界 的 聚光灯 却 被 人 工 智能 和 深度 学 习 所 创造 的 一 个 个 
奇迹 所 占据 。 从 阿尔 法 狗 峙 虐 围 棋 界 ， 到 人 工 智 能 创业 大 军 的 崛起 ， 都 预示 着 我 们 即将 步 
入 “AI+” 的 时 代 :“AIt 教 育 ””“AI+ 媒 体 ””“AI+ 医 学 ” “AI+ 配 送 ”“AI+ 农 业 ” 等 等 ， 
将 会 层出不穷 。 

AI 在 近期 的 爆发 离 不 开 数 据 “ 质 ”和 “ 量 ” 的 提升 ， 离 不 开 高 性 能 计算 平台 的 发 展 ， 
更 离 不 开 算法 的 进步 ， 而 深度 学 习 则 成 为 了 推动 算法 进步 中 的 一 个 主力 军 。TensorFlow 作 
为 谷歌 开源 的 深度 学 习 框 架 , 包含 了 谷歌 过 去 10 年 间 对 于 人 工 智能 的 探索 和 成 功 的 商业 应 
用 。 谷歌 的 自驾 车 、 搜 索 、 购 物 、 广 告 、 云 计算 等 产品 , 都 无 时 无 刻 不 在 利用 类 似 TensorFlow 
的 深度 学 习 算 法 将 数据 的 价值 最 大 化 ， 从 而 创造 巨大 的 商业 价值 。 

TensorFlow 作为 一 个 开源 框架 ， 在 极 短 时 间 内 迅速 图 粉 并 已 成 为 github.com 上 次 眼 的 
明星 。 然 而 ， 掌 握 深 度 学 习 需 要 较 强 的 理论 功底 ， 用 好 TensorFlow 又 需要 足够 的 实践 和 解 
析 。 开 源 项 目 和 代码 本 身 固然 重要 ， 但 更 重要 的 是 使 用 者 的 经 验 和 领域 知识 ， 以 及 如 何 将 
底层 技术 或 工具 采用 最 佳 实践 和 模式 来 解决 现实 问题 。 我 与 作者 共事 多 年 ， 浏 览 本 书后 深 
深 体 会 到 该 作品 是 作者 在 谷歌 多 年 分 布 式 深度 学 习 实 践 经 验 和 其 理论 才学 的 浓缩 ， 也 相信 
这 本 从 入 门 到 高 级 实践 的 读物 能 够 为 每 个 读者 带 来 一 个 精神 盛宴 ， 并 帮助 计算 机 技术 从 业 
者 在 各 自 的 业务 领域 打开 新 的 思路 、 插 上 新 的 翅膀 。 


张 多 
杭州 才 云 科技 有 限 公 司 联合 创始 人 CEO、Carnegie Mellon University 计算 机 博士 
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自 2015 年 11 月 发 布 以 来 ，TensorFlow 在 GitHub 上 迅速 受到 广泛 关注 。TensorFlow 的 
一 个 突出 特点 ， 是 它 很 好 地 兼顾 了 学 术 研究 和 工业 生产 的 不 同 需求 。 一 方面 ，TensorFlow 
的 灵活 性 使 得 研究 人 员 能 够 利用 它 快速 实现 最 新 的 模型 设计 ; 另 一 方面 ，TensorFlow 强大 
的 分 布 式 支持 ， 对 工业 界 在 海量 数据 集 上 进行 的 模型 训练 也 至 关 重 要 。 

以 我 供职 的 谷歌 翻译 组 为 例 ， 在 研发 最 新 的 神经 网 络 翻译 模型 过 程 中 ， 我 们 既 需 要 快 
速 灵 活 地 尝试 学 术 界 各 类 最 新 的 想法 ， 又 需要 成 熟 、 高 效 的 分 布 式 训练 系统 ， 以 便 在 十 亿 
句 量 级 的 训练 数据 上 训练 最 终 模型 。TensorFlow 的 特性 使 我 们 只 需 维护 一 套 代 码 ， 就 能 够 
高 效 兼顾 这 两 方面 的 工作 。 模型 训练 完成 之 后 , 我 们 又 借助 TensorFlow 搭建 了 一 个 高 性 能 、 
低 延 迟 的 在 线 翻译 服务 。 旧作 全 于 靖 昌 和 下 的 下 于 全 亲本 本 的 文 :期许 全 多 其 中 超 
过 35% 是 通过 TensorFlow 进行 的 。 

TensorFlow 还 有 着 强大 的 可 移植 性 ， 支 持 GPU、CPU、 安 卓 、iOS 等 多 种 计算 5 
受益 于 这 一 特性 ， 开 发 者 可 以 在 移动 平台 上 开发 复杂 的 深度 学 习 应 用 。 er 
歌 翻译 应 用 中 广 受 好 评 的 图 片 即时 翻译 功能 ， 就 是 依赖 于 移动 平台 上 的 TensorFlow， 机 
用 户 的 手机 本 地 完成 计算 的 。 这 一 功能 可 以 帮助 人 们 摆脱 语言 和 手机 网 络 的 约束 ， 更 加 自 
由 地 体验 全 球 各 地 的 风土 人 情 。 

谷歌 已 经 将 TensorFlow 大 规模 应 用 计数 十 项 产品 的 研发 中 ， 而 在 谷歌 以 外 , TensorFlow 
也 逐渐 得 到 广泛 应 用 。 从 国内 的 小 米 、 京 东 ， 到 硅谷 的 Uber、Airbnb、Twitter 等 ， 都 已 经 
开始 采用 TensorFlow 进行 生产 实践 。 多 伦 多 大 学 、 加 州 大 学 伯克利 分 校 等 著名 高 校 ， 也 已 
经 将 TensorFlow 用 于 教学 当中 , 斯 坦 福 大 学 更 是 专门 开设 了 “TensorFlow for Deep Learning 
Research” 课 程 ， 帮 助 学 生 深入 理解 这 一 深度 学 习 领 域 的 重要 工具 。 

作者 郑 泽 宇 是 我 的 多 年 好 友 ， 他 对 于 机 器 学 习 的 学 术 研究 和 工业 应 用 方面 都 有 着 极为 
丰富 的 经 验 。 这 本 教程 从 深入 浅 出 ， 涵 盖 了 深度 学 习 中 常见 算法 的 理论 基础 和 TensorFlow 
实现 两 方面 内 容 。 相 信 这 本 书 能 帮助 读者 在 最 短 时 间 内 理解 深度 学 习 并 熟练 应 用 
TensorFlow， 在 这 一 当前 极为 活跃 的 领域 展开 工程 实践 。 

梁 博文 
工程 师 ， 谷 歌 翻 译 团 队 
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深度 学 习 带 来 的 技术 革命 波及 甚 广 ， 学 术 界 同样 早已 从 中 受益 ， 将 深度 学 习 广 泛 应 用 
到 各 个 学 科 领 域 。 深 度 学 习 源 自 “ 古 老 ” 的 神经 网 络 技术 ， 既 标志 着 传统 神经 网 络 的 卷 圭 
重 来 ， 也 藉 由 AlphaGo 碾 压 人 类 围棋 一 役 ， 开 启 了 AI 爆炸 式 发 展 的 大 幕 。 机 器 学 习 为 人 
工 智能 指明 道路 ， 而 深度 学 习 则 让 机 器 学 习 真 正 落地 。 作 为 高 等 教育 工作 者 ， 让 学 生 了 解 
和 跟 上 最 新 技术 发 展 的 意义 不 言 而 喻 。 而 深度 学 习 的 重要 性 ， 从 近来 国内 外 互联 网 巨 掌 对 
未 来 的 展望 中 可 见 端 倪 一 以 深度 学 习 照 沪 下 的 人 工 智能 技术 ， 毫 无 疑问 是 下 一 个 时 代 的 
主角 和 支柱 。 

处 而， 日前 深度 学 习 的 相关 资料 ， 尤 其 是 像 TensorFlow 这 种 引领 未 来 趋势 的 新 技术 的 
学 习 资料 ， 普 遍 存在 明显 缺憾 。 

其 一 ， 中 文 资料 非常 少 ， 而 且 信 息 零 散 、 不 成 系统 。 这 篇 文章 里 讲 一 个 算法 ， 那 个 博 
客 里 介绍 一 个 应 用 ， 很 难 让 学 生 形成 一 个 完整 的 ! 全 局 的 概念 体系 。 

其 二 ， 已 有 的 深度 学 习 资料 大 多 偏重 理论 ， 对 概率 、 统 计 等 数学 功底 有 很 高 的 要 求 ， 
不 易 激发 学 生 的 兴趣 。 

而 这 些 现存 问题 ， 也 正 是 我 对 汉字 这 部 才 作 害 玫 厚望 的 原因 一 这 是 一 本 非常 到 全 
校 学 生 走 近 深度 学 习 的 入 门 读物 。 因 为 它 从 实际 问题 出 发 ， 可 以 激发 读者 的 兴趣 ， 让 读者 
可 以 快速 而 直观 地 享受 到 解决 问题 的 成 就 感 。 同时 ， 此 书 理论 与 实践 并 重 ， 既 介绍 了 深度 
学 习 的 基本 概念 ， 为 更 加 深入 地 研究 深度 学 习 黄 定 基础 又 给 出 了 具体 的 TensorFlow 样 例 
代码 ， 让 读者 可 以 将 学 习 成 果 直 接 运 用 到 实践 中 。 

我 非常 相信 也 衷心 希望 ,有志 参与 深度 学 习 未 来 大 潮 的 伴 伴 学 子 ， 能 凭借 此 书 更 快速 、 
更 扎实 地 开启 深度 学 习 之 旅 , 并 通过 TensorFlow 来 实现 深度 习 常用 算法 , 从 而 登 堂 入 室 ， 
最 终 成 为 AI 的 真正 驾驭 者 。 


张 铭 
北京 大 学 信息 学 院 教授 
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“深度 学 习 ” 这 个 词 在 过 去 的 一 年 之 中 已 经 又 炸 了 媒体 、 技 术 博 客 甚至 朋友 圈 。 这 也 许 
正 是 你 会 读 到 本 书 的 原因 之 一 。 数 卡 年 来 ;类 工 智能 技术 昌 不 断 发 展 ， 但 像 深度 学 习 这 样 
在 学 术 界 和 工业 界 皆 具 颠 覆 性 的 技术 实在 是 十 年 难 遇 。 可 惜 的 是 ， 理 解 和 灵活 运用 深度 学 
习 并 不 容易 ， 尤其 是 其 复 篆 的 数学 模型 ， 让 不 少 感 兴趣 的 同学 “从 入 门 到 放弃 ”。 更 糟糕 的 
是 ， 因 为 深度 学 习 技术 的 飞速 发 展 ， 而 写 书 、 出 版 的 过 程 又 非常 复杂 ， 不 论 是 英文 还 是 中 
文 ， 都 很 难 找到 从 实战 出 发 的 深度 学 习 参 考 书 。 关 于 当前 最 新 最 火 的 深度 学 习 框 架 
TensorFlow 的 书籍 更 是 空缺 。 这 正 是 作者 在 工作 之 余 ， 熬 夜 写 这 本 书 的 动力 。 作 者 本 人 作 
为 一 枚 标准 码 农 、 创 业 党 ， 希 望 这 本 书 能 够 帮助 码 农 和 准 码 农 们 绕 过 深度 学 习 复 杂 的 数据 
公式 ， 通 过 本 书 的 大 量 样 例 代 码 快速 上 手 深度 学 习 ， 解 决 工作 、 学 习 中 的 实际 问题 。 

2016 年 初 ， 作 者 和 小 伙伴 们 从 美国 谷歌 辞职 ， 回 到 祖国 杭州 联合 创办 了 才 云 科技 
《Caicloud.io), 为 企业 提供 人 工 智能 平台 和 解决 方案 , 在 作者 回国 之 初 , 很 多 企业 都 展示 出 
了 对 于 TensorFlow 浓厚 的 兴趣 。 然 而 在 深度 交流 之 后 ,作者 发 现 虽然 TensorFlow 是 一 款 非 
常 容易 上 手 的 工具 ， 但 是 深度 学 习 的 技术 目前 并 不 是 每 一 个 企业 都 掌握 的 。 为 了 让 更 多 的 
个 人 和 企业 可 以 享受 到 深度 学 习 技 术 带 来 的 福利 ， 作 者 与 电子 工业 出 版 社 的 张 春 雨 主编 一 
拍 即 合 ， 开 始 了 本 书 的 撰写 工作 。 

使 用 TensorFlow 实现 深度 学 习 是 本 书 重 点 介绍 的 对 象 。 本 书 将 从 TensorFlow 的 安装 开 
始 ， 逐 一 介绍 TensorFlow 的 基本 概念 、 使 用 TensorFlow 实现 全 连接 深层 神经 网 络 、 卷 积 神 
经 网 络 和 循环 神经 网 络 等 深度 学 习 算法 。 在 介绍 使 用 TensorFlow 实现 不 同 的 深度 学 习 算 法 
的 同时 ， 作 者 也 深入 浅 出 地 介绍 了 这 些 深度 学 习 算 法 背后 的 理论 ， 并 给 出 了 这 些 算 法 可 以 
解决 的 具体 问题 。 在 本 书 中 ， 作 者 避 开 了 枯燥 复杂 的 数学 公式 ， 从 实际 问题 出 发 ， 在 实践 
中 介绍 深度 学 习 的 概念 和 TensorFlow 的 用 法 。 在 本 书 中 ,作者 还 介绍 了 TensorFlow 并 行 化 
输入 数据 处 理 流 程 、TensorBoard 可 视 化 工具 以 及 带 GPU 的 分 布 式 TensorFlow 使 用 方法 。 

TensorFlow 是 一 个 飞速 发 展 的 工具 。 本 书 在 写作 时 最 新 的 版 本 为 0.9.0， 然 而 到 本 书 出 
版 时 ， 谷 歌 已 经 推出 了 TensorFlow 1.0.0。 为 了 让 广大 读者 更 好 地 理解 和 试用 书 中 的 样 例 代 
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码 ， 我 们 提供 了 一 个 公开 的 GitHub 代码 库 来 维护 不 同 TensorFlow 版 本 的 样 例 程序 。 该 代 
码 库 的 网 址 为 https://github.com/caicloud/tensorflow-tutorial。 在 Caicloud 提供 的 TensorFlow 
镜像 cargo.caicloud.io/tensorflow/tensorflow:0.12.0 中 也 包含 了 本 书 的 样 例 代码 。 作 者 衷心 地 
希望 各 位 读者 能 够 从 本 书 获 益 ， 这 也 是 对 我 们 最 大 的 支持 和 鼓励 。 对 于 书 中 出 现 的 任何 错 
误 或 者 不 准确 的 地 方 ， 欢 迎 大 家 批评 指正 ， 并 发 送 邮件 至 zeyu@caicloud.io。 

读者 也 可 登录 博文 视点 官网 http://www.broadview.com.cn 下 载 本 书 代码 或 提交 勘误 信 
息 。 一 旦 勘误 信息 被 作者 或 编辑 确认 ， 即 可 获得 博文 视点 奖励 积分 ， 可 用 于 兑换 电子 书 。 
读者 可 以 随时 浏览 图 书页 面 ， 查看 已 发 布 的 勘误 信息 。 


致谢 


在 此 我 特别 感谢 为 此 书 做 出 贡献 的 每 一 个 人 。 感谢 每 一 位 读者 ， 希 望 书 里 的 干货 值得 
您 宝贵 的 精力 投入 。 要 记得 好 评 哦 ， 亲 ! 

首先 , 我 要 感谢 才 云 科技 (Caicloud.io) 小 伙伴 们 对 我 的 大 力 支持 。 在 紧张 的 创业 环境 
中 ，CEO 张 饮 给 了 我 极 大 的 支持 和 鼓励 ， 让 我 有 足够 的 时 间 投 入 到 本 书 中 。 特 别 感谢 为 此 
书 完成 校 验 以 及 代码 整理 工作 的 数据 工程 师 易 明 轩 ， 为 此 书 提 出 宝贵 意见 的 大 数据 科学 家 
何 辉 辉 以 及 才 云 科技 TensorFlow as a Service 的 产品 开发 者 李 恩 华 。 

然后 ,我 要 感谢 我 的 妻子 温 苗 苗 。 作 为 本 书 的 第 一 读者 和 美国 卡 内 基 梅 隆 大字 (Camegs 
Mellon University) 计算 机 专业 博士 ， 从 最 开始 的 内 容 安 排 到 写作 语言 细节 ， 与 她 的 讨论 给 
我 带 来 很 多 灵感 。 

我 要 感谢 我 的 父母 、 岳 父母 ， 没有 他 们 一 直 以 来 的 支持 和 帮助 ， 我 不 可 能 完成 此 书 的 
写作 。 每 当 遇 到 困难 的 时 候 ， 长 辈 们 的 鼓励 是 我 前 进 的 最 大 动力 。 

最 后 ， 我 要 感谢 电子 工业 出 版 社 的 张 春 雨 编辑 。 无 论 在 该 书 的 定位 上 还 是 在 具体 的 文 
字 细节 上 ， 张 编辑 都 给 了 我 非常 多 的 建议 。 兵 贵 神速 ， 写 书 亦 是 如 此 。 没 有 张 春 雨 精确 的 
策划 和 及 时 的 敦促 ， 我 也 很 难 一 鼓 作 气 完 成 此 书 。 


2017 年 1 月 


VI 
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用 户 注册 








轻松 注册 成 为 博文 视点 社区 用 户 〈www.broadview.com.cn)， 您 即 可 享受 以 下 服务 。 
。 下 载 资源 : 本 书 所 提供 的 示例 代码 及 资源 文件 均 可 在 【下 载 资源 】 处 下 载 。 
。 提交 勘误 : 您 对 书 中 内 容 的 修改 意见 可 在 【提交 勘误 】 处 提交 ， 若 被 采纳 ， 将 获 赠 
博文 视点 社区 积分 〈 在 您 购买 电子 书 时 ， 积 分 可 用 来 抵 扣 相应 金额 )。 
。 与 作者 交流 : 在 页 面 下 方 【读者 评论 】 处 留 下 您 的 疑问 或 观点 ， 与 作者 和 其 他 读者 
-同学 习 交 流 。 
页 面 入 口 : http://www.broadview.com.cn/30959 
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随 着 AlphaGo 战胜 李 世 石 ,人 工 智能 和 深度 学 习 这 些 概念 已 经 成 为 一 个 非常 火 的 话题 。 
谷歌 Google)、 脸 书 Facebook)、 百 度 、 阿 里 巴巴 等 一 系列 国内 外 大 公司 纷纷 对 外 公开 
宣布 了 人 工 智能 将 作为 他 们 下 一 个 战略 重心 。 在 类 似 AlphaGo、 无 人 驾驶 汽车 等 最 新 技术 
的 背后 ， 深 度 学 习 是 推动 这 些 技术 发 展 的 核心 力量 。“ 深 度 学 习 ” 是 本 书 的 核心 概念 。 通 过 
阅读 本 章 ， 读 者 将 从 多 个 角度 了 解 这 一 概念 。 人 工 智能 、 机 器 学 习 与 深度 学 习 这 几 个 关键 
词 时 常 出 现在 媒体 新 闻 中 ， 并 错误 地 被 认为 是 等 同 的 概念 。1.1 节 将 介绍 人 工 智能 、 机 器 学 
习 以 及 深度 学 习 的 概念 ， 并 着 重 解 析 它们 之 间 的 关系 。 这 一 节 将 从 不 同 领域 需要 解决 的 问 
题 入 手 ， 依 次 介绍 这 些 领域 的 基本 概念 以 及 解决 领域 内 问题 的 主要 思路 。 在 介绍 完 深 度 学 
习 基 本 的 概念 之 后 ，1.2 节 将 完整 地 介绍 深度 学 习 发 展 史 。 虽 然 “ 深 度 学 习 ” 这 个 名 词 是 在 
最 近 几 年 才 提出 ， 但 深度 学 习 基于 的 神经 网 络 算法 却 早 在 20 世纪 40 年 代 就 出 现 了 。 这 一 
节 将 会 介绍 神经 网 络 发 展 过 程 中 的 重大 事件 ， 并 介绍 深度 学 习 研 究 领域 的 发 展 历程 。 

接着 ，1.3 节 将 从 计算 机 视觉 、 语 音 识别 、 自 然 语言 处 理 和 人 机 博弈 四 个 不 同 的 方向 介 
绍 目前 深度 学 习 的 应 用 。 从 2012 年 深度 学 习 被 成 功 应 用 于 图 像 识别 问题 以 来 ,研究 人 员 一 
言 在 扩展 它 的 应 用 范围 和 影响 力 。 这 一 节 婚 会 介绍 在 不 同方 向 上 深度 学 习 在 学 术 界 取得 的 
成 就 ， 也 会 介绍 工业 界 成 功 应 用 深度 学 习 的 案例 。 最 后 ，1.4 节 将 引出 本 书 的 重点 一 一 
TensorFlow。TensorFlow 是 谷歌 开源 的 一 个 计算 框架 ， 该 计算 框架 可 以 很 好 地 实现 各 种 深 
度 学 习 算法 。 这 一 节 将 简单 介绍 TensorFlow 的 特性 以 及 它 目前 的 应 用 场景 。 也 将 对 比 不 同 
的 开源 深度 学 习 工 具 ， 并 通过 具体 的 数字 来 说 明 TensorFlow 相 比 其 他 工具 的 优势 以 及 作者 
将 TensorFlow 作为 本 书 介绍 对 象 的 原因 。 
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1.1 ”人工 智 能 、 机 器 学 习 与 深度 学 习 ” 


从 计算 机 发 明之 初 ， 人 们 就 希望 它 能 够 帮助 甚至 代替 人 类 完成 重复 性 劳作 。 利 用 巨大 
的 存储 空间 和 超 高 的 运算 速度 ， 计 算 机 已 经 可 以 非常 轻易 地 完成 一 些 对 于 人 类 非常 困难 ， 
但 对 计算 机 相对 简单 的 问题 。 比 如 ， 统 计 一 本 书 中 不 同 单词 出 现 的 次 数 ， 存 储 一 个 图 书馆 
中 所 有 的 藏书 ， 或 是 计算 非常 复杂 的 数学 公式 ， 都 可 以 轻松 通过 计算 机 解决 。 然 而 ， 一 些 
人 类 通过 直觉 可 以 很 快 解决 的 问题 ， 目 前 却 很 难 通过 计算 机 解决 。 这 些 问 题 包括 自然 语言 
理解 、 图 像 识 别 、 语 音 识别 ， 等 等 。 而 它们 就 是 人 工 智能 需要 解决 的 问题 。 

计算 机 要 像 人 类 一 样 完成 更 多 智能 的 工作 ， 需 要 掌握 关于 这 个 世界 海量 的 知识 。 比 如 
要 实现 汽车 自动 驾驶 ， 计 算 机 至 少 需 要 能 够 判断 哪里 是 路 ， 哪 里 是 障碍 物 。 这 个 对 人 类 非 
常 直 观 的 东西 ,但 对 计算 机 却 是 相当 困难 的 。 路 有 水 泥 的 、 沥 青 的 ， 也 有 石子 的 甚至 土路 。 
这 些 不 同 材 质 铺 成 的 路 在 计算 机 看 来 差距 非常 大 。 如 何 让 计算 机 掌握 这 些 人 类 看 起 来 非常 
直观 的 常识 ， 对 于 人 工 智 能 的 发 展 是 一 个 巨大 的 挑战 。 很 多 早期 的 人 工 智 能 系统 只 能 成 功 
应 用 于 相对 特定 的 环境 〈specific domain)， 在 这 些 特定 环境 下 ， 计 算 机 需要 了 解 的 知识 很 
容易 被 严格 并 且 完 整地 定义 。 例 如 ，IBM 的 深蓝 (Deep Blue) 在 1997 年 打败 了 国际 象棋 
冠军 卡 斯 帕 罗 夫 。 设 计 出 下 象棋 软件 是 人 工 智 能 史上 的 重大 成 就 ， 但 其 主要 挑战 不 在 于 让 
计算 机 掌握 国际 象棋 中 的 规则 。 国 际 象棋 是 一 个 特定 的 环境 ， 在 这 个 环境 中 ， 计 算 机 只 需 
要 了 解 每 一 个 棋子 规定 的 行动 范围 和 行动 方法 即 可 。 虽然 计算 机 早 在 1997 年 就 可 以 击败 国 
际 象棋 的 世界 冠军 , 但 是 直到 20 年 后 的 今天 ,让 计算 机 实现 大 部 分 成 年 人 都 可 以 完成 的 汽 
车 加 驶 却 仍然 依旧 十 分 困难 。 

为 了 使 计算 机 更 多 地 掌握 开放 环境 (open domain) 下 的 知识 ， 研 究 人 员 进 行 了 很 多 尝 
试 。 其 中 一 个 影响 力 非 常 大 的 领域 是 知识 图 库 (Ontology”)。WordNet 是 在 开放 环境 中 建 
立 的 一 个 较 大 且 有 影响 力 的 知识 图 库 。WordNet 是 由 普林斯顿 大 学 (Princeton University) 
的 George Armitage Miller 教授 和 Christiane Fellbaum 教授 带领 开发 的 ， 它 将 155287 个 单词 
整理 为 了 117659 个 近义词 集 (synsets)。 基 于 这 些 近义词 集 ，WordNet 进一步 定义 了 近 义 
词 集 之 间 的 关系 。 比 如 同义词 集 “ 狗 ”属于 同义词 集 “ 犬 科 动物 ” 他 们 之 间 存 在 种 属 关系 
Chypernyms/hyponyms) ”。 除 了 WordNet， 也 有 不 少 研究 人 员 尝 试 将 Wikipedia 中 的 知识 整 
理 成 知识 图 库 。 谷 歌 的 知识 图 库 就 是 基于 Wikipedia 创建 的 。 


Q 本 节 部 分 内 容 参见 : Goodfellow I, Bengio Y Courville A. Deep learning [M]. The MIT Press,2016. 

@@ 知识 图 库 Ontology 有 时 又 被 称 为 Knowledge Graph。 Knowledge Graph 更 多 的 是 指 代 谷歌 内 部 建立 的 知 
识 图 库 ， 而 Ontology 更 多 指 代 的 是 知识 图 库 这 个 学 术 领 域 。 

@@ 更 多 关于 WordNet 的 信息 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 
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一 一 


虽然 使 用 知识 图 库 可 以 让 计算 机 很 好 地 掌握 人 工 定义 的 知识 ， 但 建立 知识 图 库 一 方面 
需要 花费 大 量 的 人 力 物 力 ， 另 一 方面 可 以 通过 知识 图 库 方式 明确 定义 的 知识 有 限 ， 不 是 所 
有 的 知识 都 可 以 明确 地 定义 成 计算 机 可 以 理解 的 固定 格式 。 很 大 一 部 分 无 法 明确 定义 的 知 
识 ， 就 是 人 类 的 经 验 。 比 如 我 们 需要 判断 一 封 邮件 是 否 为 垃圾 邮件 ， 会 综合 考虑 邮件 发 出 
的 地 址 、 邮 件 的 标题 、 邮 件 的 内 容 以 及 邮件 收 件 人 的 长 度 ， 等 等 。 这 是 收 到 无 数 垃圾 邮件 
骚扰 之 后 总 结 出 来 的 经 验 。 这 个 经 验 很 难以 固定 的 方式 表达 出 来 ， 而 且 不 同人 对 垃圾 邮件 
的 判断 也 会 不 一 样 。 如 何 让 计算 机 可 以 跟 人 类 一 样 从 历史 的 经 验 中 获取 新 的 知识 呢 ? 这 就 
是 机 器 学 习 需 要 解决 的 问题 。 

卡 内 基 梅 隆 大 学 〈Carnegie Mellon University) 的 Tom Michael Mitchell 教授 在 1997 年 
出 版 的 书籍 Machine Learning? 中 对 机 器 学 习 进 行 过 非常 专业 的 定义 ， 这 个 定义 在 学 术 界 内 
被 多 次 引用 。 在 这 本 书 中 对 机 器 学 习 的 定义 为 “如 果 一 个 程序 可 以 在 任务 T 上， 随 着 经 验 
E 的 增加 ， 效 果 了 也 可 以 随 之 增加 ， 则 称 这 个 程序 可 以 从 经 验 中 学 习 ”。 通 过 垃圾 邮件 分 类 
的 问题 来 解释 机 器 学 习 的 定义 。 在 垃圾 邮件 分 类 问题 中 ,“ 一 个 程序 ” 指 的 是 需要 用 到 的 机 
器 学 习 算 法 ， 比 如 逻辑 回归 算法 ;“ 任 务 T” 是 指 区 分 垃圾 邮件 的 任务 ;“ 经 验 E” 为 已 经 
区 分 过 是 否 为 垃圾 邮件 的 历史 邮件 ， 在 监督 式 机 器 学 习 问 题 中 ， 这 也 被 称 之 为 训练 数据 ; 
“效果 P” 为 机 器 学 习 算 法 在 区 分 是 否 为 垃圾 邮件 任务 上 的 正确 率 。 

在 使 用 逻辑 回归 算法 解决 垃圾 邮件 分 类 问题 时 ， 会 先 从 每 一 封 邮 件 中 抽取 对 分 类 结果 
可 能 有 影响 的 因素 ， 比 如 说 上 文 提 到 的 发 邮件 的 地 址 、 邮件 的 标题 及 收 件 人 的 长 度 ， 等 等 。 
每 一 个 因素 被 称 之 为 一 个 特征 (feature)。 逻辑 回归 算法 可 以 从 训练 数据 中 计算 出 每 个 特征 
和 预测 结果 的 相关 度 。 比 如 在 垃圾 邮件 分 类 问题 中 ， 可 能 会 发 现 如 果 一 个 邮件 的 收 件 人 越 
多 ， 那 么 邮件 为 垃圾 邮件 的 概率 也 就 越 高 。 在 对 一 封 未 知 的 邮件 做 判断 时 ， 逻辑 回归 算法 
会 根据 从 这 封 邮件 中 抽取 得 到 的 每 一 个 特征 以 及 这 些 特征 和 垃圾 邮件 的 相关 度 来 判断 这 封 
邮件 是 否 为 垃圾 邮件 。 

在 大 部 分 情况 下 ， 在 训练 数据 达到 一 定数 量 之 前 ， 越 多 的 训练 数据 可 以 使 逻辑 回归 算 
法 对 未 知 邮件 做 出 的 判断 越 精准 。 也 就 是 说 逻辑 回归 算法 可 以 根据 训练 数据 经验 E) 提 
高 在 垃圾 邮件 分 类 问题 (任务 T) 上 的 正确 率 (效果 P)。 之 所 以 说 在 大 部 分 情况 下 ， 是 
因为 逻辑 回归 算法 的 效果 除了 依赖 于 训练 数据 ， 也 依赖 于 从 数据 中 提取 的 特征 。 假设 从 
邮件 中 抽取 的 特征 只 有 邮件 发 送 的 时 间 ， 那 么 即使 有 再 多 的 训练 数据 ， 逻辑 回归 算法 也 
无 法 很 好 地 利用 。 这 是 因为 邮件 发 送 的 时 间 和 邮件 是 否 为 垃圾 邮件 之 间 的 关联 不 大 ， 而 逻 
辑 回 归 算 法 无 法 从 数据 中 习 得 更 好 的 特征 表达 。 这 也 是 很 多 传统 机 器 学 习 算 法 的 一 个 共同 
的 问题 。 





QD Mitchell T M, Carbonell J G Michalski R S. Machine Learning [M]. McGraw-Hill, 2003. 
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类 似 从 邮件 中 提取 特征 ， 如 何 数字 化 地 表达 现实 世界 中 的 实体 ， 一 直 是 计算 机 科学 中 
一 个 非常 重要 问题 。 如 果 将 图 书馆 中 的 图 书 名 称 储存 为 结构 化 的 数据 ， 比 如 储存 在 Excel 
表格 中 ， 那 么 可 以 非常 容易 地 通过 书 名 查询 一 本 书 是 否 在 图 书馆 中 。 如 果 图 书 的 书 名 都 是 
存在 非 结构 化 的 图 片 中 ， 那 么 要 完成 书 名 查找 任务 的 难度 将 大 大 增加 。 类 似 的 道理 ， 如 何 
从 实体 中 提取 特征 ， 对 于 很 多 传统 机 器 学 习 算法 的 性 能 有 巨大 影响 。 图 1-1 展示 了 一 个 简 
单 的 例子 。 如 果 通 过 笛 卡 尔 坐标 系 〈cartesian coordinates) 来 表示 数据 ， 那 么 不 同 颜色 的 结 
点 无 法 被 一 条 直线 划分 。 如 果 将 这 些 点 映射 到 极 角 坐 标 系 (polar coordinates)， 那 么 使 用 直 
线 划 分 就 很 容易 了 。 同 样 的 数据 使 用 不 同 的 表达 方式 会 极 大 地 影响 解决 问题 的 难度 。 一 旦 


解决 了 数据 表达 和 特征 提取 ,很 多 人 工 智能 任务 也 就 解决 了 90%。 
笛 卡 尔 坐标 系 极 角 坐标 系 





图 1-1 不 同 的 数据 表达 对 使 用 直线 划分 不 同 颜色 结 点 的 难度 影响 


然而 ， 对 许多 机 器 学 习 问 题 来 说 ， 特 征 提 取 不 是 一 件 简单 的 事情 。 在 一 些 复杂 问题 上 ， 
要 通过 人 工 的 方式 设计 有 效 的 特征 集合 ， 需 要 很 多 的 时 间 和 精力 ， 有 时 甚至 需要 整个 领域 
数 十 年 的 研究 投入 。 例 如 ， 假 设想 从 很 多 照片 中 识别 汽车 。 现 在 已 知 的 是 汽车 有 轮子 ， 所 
以 希望 在 图 片 中 抽取 “图 片 中 是 否 出 现 了 轮子 ”这 个 特征 。 但 实际 上 ， 要 从 图 片 的 像素 中 
描述 一 个 轮子 的 模式 是 非常 难 的 。 虽然 车 轮 的 形状 很 简单 ， 但 在 实际 图 片 中 ， 车 轮 上 可 能 
会 有 来 自 车 身 的 阴影 、 金 属 车 轴 的 反光 ， 周 围 物品 也 可 能 会 部 分 遮挡 车 轮 。 实 际 图 片 中 各 
种 不 确定 的 因素 让 我 们 很 难 直接 抽取 这 样 的 特征 。 

既然 人 工 的 方式 无 法 很 好 地 抽取 实体 中 的 特征 ， 那 么 是 否 有 自动 的 方式 呢 ? 答案 是 肯 
定 的 。 深 度 学 习 解决 的 核心 问题 之 一 就 是 自动 地 将 简单 的 特征 组 合成 更 加 复杂 的 特征 ， 并 
使 用 这 些 组 合 特征 解决 问题 。 深 度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 除了 可 以 学 习 特 征 和 任 
务 之 间 的 关联 以 外 ， 还 能 自动 从 简单 特征 中 提取 更 加 复杂 的 特征 。 图 1-2 中 展示 了 深度 学 
习 和 传统 机 器 学 习 在 流程 上 的 差异 。 如 图 1-2 所 示 ， 深 度 学 习 算 法 可 以 从 数据 中 学 习 更 加 
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复杂 的 特征 表达 ， 使 得 最 后 一 步 权 重 学 习 变 得 更 加 简单 且 有 效 。 在 图 1-3 中 ， 展 示 了 通过 
深度 学 习 解 决 图 像 分 类 问题 的 具体 样 例 。 深 度 学 习 可 以 一 层 一 层 地 将 简单 特征 逐步 转化 成 
更 加 复杂 的 特征 ， 从 而 使 得 不 同类 别 的 图 像 更 加 可 分 。 比 如 图 1-3 中 展示 了 深度 学 习 算法 
可 以 从 图 像 的 像素 特征 中 逐渐 组 合 出 线条 、 边 、 角 、 简 单 形状 、 复 杂 形状 等 更 加 有 效 的 复 
杂 特 征 。 





传统 机 器 学 习 算 法 | 输入 5 [下 = | amsa | 





长 
斋 测 结果 




















深度 学 习 算法 PaO 





中 | am [5| 预测 结果 | 





图 1-2 ”传统 机 器 学 习 和 深度 学 习 流程 对 比 





基础 特征 | 和 「 多 层 复杂 | a 
| 输入 [| 提取 EE be 











基础 特征 : 图 片 像素 第 一 层 : 线条 ”第 二 层 : 简单 形状 。 ”第 三 层 : 复杂 形状 
图 1-3 深度 学 习 在 图 像 分 类 问题 上 的 算法 流程 样 例 


旦 期 的 深度 学 习 受到 了 神经 科学 的 启发 ， 它 们 之 间 有 非常 密切 的 联系 。 科 学 家 们 在 神 
经 科学 上 的 发 现 使 得 我 们 相信 深度 学 习 可 以 胜任 很 多 人 工 知 能 的 任务 。 神 经 科学 家 发 现 ， 
如果 将 小 白鼠 的 视觉 神经 连接 到 听觉 中 枢 ， 一 段 时 间 之 后 小 鼠 可 以 习 得 使 用 听觉 中 枢 “ 看 ” 
岂 界 。 这 说 明 昌 然 哺乳 动物 大 脑 分 为 了 很 多 区 域 ， 但 这 些 区 域 的 学 习 机 制 却 是 相似 的 。 在 
这 一 假想 得 到 验证 之 前 ， 机 器 学 习 的 研究 者 们 通常 会 为 不 同 的 任务 设计 不 同 的 算法 。 而 且 
计 到 今天 ,学 术 机 构 的 机 器 学 习 领 域 也 被 分 为 了 自然 语言 处 理 、 计 算 机 视觉 和 语音 识别 等 
不 同 的 实验 室 。 因 为 深度 学 习 的 通用 性 ， 深 度 学 习 的 研究 者 往往 可 以 跨越 多 个 研究 方 辣 
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其 至 同时 活跃 于 所 有 的 研究 方向 。 下 面 的 1.3 节 将 具体 介绍 深度 学 习 在 不 同方 向 的 应 用 。 

虽然 深度 学 习 领 域 的 研究 人 员 相 比 其 他 机 器 学 习 领 域 更 多 地 受到 了 大 脑 工作 原理 的 启 
发 ， 而 且 媒体 界 也 经 常 强调 深度 学 习 算 法 和 大 脑 工 作 原 理 的 相似 性 ， 但 现代 深度 学 习 的 发 
展 并 不 拘泥 于 模拟 人 脑 神 经 元 和 人 脑 的 工作 机 理 。 模 拟人 类 大 脑 也 不 再 是 深度 学 习 研 究 的 
主导 方向 。 我 们 不 应 该 认为 深度 学 习 是 在 试图 模仿 人 类 大 脑 。 目 前 科学 家 对 人 类 大 脑 学 习 
机 制 的 理解 还 不 足以 为 当下 的 深度 学 习 模 型 提供 指导 。 

现代 的 深度 学 习 已 经 超越 了 神经 科学 观点 ， 它 可 以 更 广泛 地 适用 于 各 种 并 不 是 由 神经 
网 络 启发 而 来 的 机 器 学 习 框架 。 值 得 注意 的 是 ， 有 一 个 领域 的 研究 者 试图 从 算法 层 理解 大 
脑 的 工作 机 制 ， 它 不 同 于 深度 学 习 的 领域 ， 被 称 为 “计算 神经 学 ”( computational 
neuroscience )。 深 度 学 习 领 域 主要 关注 如 何 搭建 智能 的 计算 机 系统 ， 解 决 人 工 智能 中 过 到 
的 问题 。 计 算 神 经 学 则 主要 关注 如 何 建 立 更 准确 的 模型 来 模拟 人 类 大 脑 的 工作 。 

总 的 来 说 ， 人 工 智 能 、 机 器 学 习 和 深度 学 习 是 非常 相关 的 几 个 领域 。 图 1-4 总 结 了 它 
们 之 间 的 关系 。 人 工 智 能 是 一 类 非常 广泛 的 问题 ， 机 器 学 习 是 解决 这 类 问题 的 一 个 重要 手 
段 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 支 。 在 很 多 人 工 智 能 问题 上 ， 深 度 学 习 的 方法 突破 了 
传统 机 器 学 习 方法 的 瓶颈 ， 推 动 了 人 工 智 能 领域 的 发 展 。 





图 1-4 人 工 智能 、 机 器 学 习 以 及 深度 学 习 之 间 的 关系 图 


1.2 深度 学 习 的 发 展 历程 


很 多 读者 可 能 会 认为 深度 学 习 是 一 门 新 技术 ， 所 以 听 到 “深度 学 习 的 历史 ”也 许 会 有 
些 惊 讶 。 事 实 上 ， 目 前 大 家 所 熟知 的 “深度 学 习 ” 基 本 上 是 深层 神经 网 络 的 一 个 代名词 ， 
而 神经 网 络 技术 可 以 追溯 到 1943 年 。 深 度 学 习 之 所 以 看 起 来 像 是 一 门 新 技术 , 一 个 很 重要 
的 原因 是 它 在 21 世纪 初期 并 不 流行 。 神 经 网 络 的 发 展 史 大 致 可 以 分 为 三 个 阶段 , 在 本 节 中 ， 
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我 们 将 简单 介绍 神经 网 络 发 展 历史 上 的 这 三 个 阶段 。 

早期 的 神经 网 络 模型 类 似 于 仿生 机 器 学 习 ， 它 试图 模仿 大 脑 的 学 习 机 理 。 最 早 的 神经 
网 络 数学 模型 是 由 Warren McCulloch 教授 和 Walter Pitts 教授 于 1943 年 在 论文 4 logical 
calculus of the ideas immanent in nervous actiy 芭 中 中 提出 的 。 在 论文 中 ，Warren McCulloch 教 
授 和 Walter Pitts 教授 模拟 人 类 大 脑 神 经 元 的 结构 提出 了 McCulloch-Pitts Neuron 的 计算 结 
构 。 图 1-5 对 比 了 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 。McCulloch-Pitts Neuron 
结构 大 致 模拟 了 人 类 神经 元 的 工作 原理 ， 它 们 都 有 一 些 输入 ， 然 后 将 输入 进行 一 些 变换 后 
得 到 输出 结果 。 虽 然 人 类 神经 元 处 理 输入 信号 的 原理 目前 还 对 我 们 来 说 还 不 是 完全 清晰 ， 
但 McCulloch-Pitts Neuron 结构 使 用 了 简单 的 线性 加 权 和 的 方式 来 模拟 这 个 变换 。 将 n 个 输 
入 值 提供 给 McCulloch-Pitts Neuron 结构 后 ，McCulloch-Pitts Neuron 结构 会 通过 n 个 权重 
wi，ws,…w 来 计算 这 个 输入 的 加 权 和 ， 然 后 用 这 个 加 权 和 经 过 一 个 阐 值 函数 得 到 一 个 0 
或 1 的 输出 。 





(a) 人 类 神经 元 结构 (b) McCulloch-Pitts Neuron 结构 
图 1-5 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结构 对 比 图 


举 一 个 具体 的 例子 来 说 明 McCulloch-Pitts Neuron 结构 是 如 何 解决 实际 问题 的 。 假设 需 
要 解决 的 问题 是 判断 邮件 是 否 为 垃圾 邮件 ， 那 么 首先 可 以 将 从 邮件 里 提取 的 n 个 特征 值 作 
为 输入 传 入 McCulloch-Pitts Neuron 结构 。McCulloch-Pitts Neuron 结构 经 过 加 权 和 及 阔 值 函 
数 处 理 可 以 得 到 一 个 0 或 者 1 的 输出 。 如 果 这 个 输出 为 0， 那么 相应 的 邮件 为 垃圾 邮件 ; 
相反 ， 如 果 这 个 输出 为 1， 那么 相应 的 邮件 不 是 垃圾 邮件 。 

为 了 使 这 种 方法 可 以 精确 地 判断 垃圾 邮件 , 我 们 需要 对 McCulloch-Pitts Neuron 结构 中 
的 权重 进行 特殊 的 设置 。 手 动 设置 这 些 权重 自然 是 一 种 选择 ， 但 通过 人 类 经 验 设 置 权重 的 
方式 既 麻烦 又 很 难 达到 最 优 的 效果 。 为 了 让 计算 机 能 够 更 加 自动 且 更 加 合理 地 设置 权重 大 
小 ，Frank Rosenblatt 教授 于 1958 年 提出 了 感知 机 模型 (perceptron)。 感 知 机 是 首 个 可 以 根 
据 样 例 数 据 来 学 习 特 征 权重 的 模型 。 虽 然 McCulloch-Pitts Neuron 结构 和 感知 机 模型 极 大 地 


QD McCulloch W, Pitts W. 4 Logical Caleulus of the Ideas Immanent in Nervous Activity [J]. Bulletin of 
Mathematical Biophysics Vol 5, 1943. 
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影响 了 现代 机 器 学 习 ， 但 是 它们 也 存在 非常 大 的 局 限 性 。 

1969 年 由 Marvin Minsky 教 授 和 Seymour Papert 教 授 出 版 的 Perceptrons: An Introduction 
to Computational Geometry 一 书 中 , 证 明了 感知 机 模型 只 能 解决 线性 可 分 问题 ， 第 4 章 中 将 
会 更 加 详细 地 介绍 线性 模型 、 线 性 可 分 问题 。 并 明确 指出 了 感知 机 无 法 解决 异 或 问题 。 而 
是 书 中 也 指出 在 当时 的 计算 能 力 下 ， 实 现 多 层 的 神经 网 络 是 不 可 能 的 事情 。 这 些 局 限 性 导 
致 了 整个 学 术 界 对 生物 启发 的 机 器 学 习 模型 的 择 击 ,在 书 中 ,Marvin Minsky 教授 和 Seymour 
Papert 教授 甚至 做 出 了 “基于 感知 机 的 研究 注定 将 失败 ”的 结论 。 这 导致 了 神经 网 络 的 第 
-次 重大 低潮 期 ， 在 之 后 的 十 多 年 内 ， 基 于 神经 网 络 的 研究 几乎 处 于 停滞 状态 。 

直到 20 世纪 80 年 代 末 ， 第 二 波 神经 网 络 研究 因 分 布 式 知识 表达 (distributed 
representation) 和 神经 网 络 反 向 传播 算法 的 提出 而 兴起 。 分 布 式 的 知识 表达 的 核心 思想 是 
现实 世界 中 的 知识 和 概念 应 该 通过 多 个 神经 元 Cneuron) 来 表达 ， 而 模型 中 的 每 一 个 神经 
元 也 应 该 参与 表达 多 个 概念 。 例如, 假设 要 设计 一 个 系统 来 识别 不 同 颜 色 不 同型 号 的 汽车 ， 
那么 可 以 有 两 种 方法 。 第 一 种 方法 是 设计 一 个 模型 使 得 模型 中 每 一 个 神经 元 对 应 一 种 颜色 
和 汽车 型 号 的 组 合 ， 比 如 “白色 的 小 轿车 ”如果 有 种 颜色 ，m 种 型 号 ， 那么 这 样 的 表达 
方式 需要 nxm 个 神经 元 。 男 一 种 方法 是 使 用 一 些 神经 元 专门 表达 颜色 ， 比 如 “白色 ”， 另 
外 一 些 神经 元 专门 表达 汽车 型 号 ， 比 如 “小 轿车 ”。 这 样 “ 白 色 的 小 轿车 ”的 概念 可 以 通过 
这 两 个 神经 元 的 组 合 来 表达 。 这 种 方式 只 需要 n+m 个 神经 元 就 可 以 表达 所 有 概念 。 而且 即 
使 在 训练 数据 中 没有 出 现 概 念 “ 红 色 的 卡车 ”， 只 要 模型 能 够 习 得 “红色 ”和 “卡车 ”的 概 
念 ， 它 也 可 以 推广 到 概念 “红色 的 卡车 ”。 分 布 式 知 识 表 达 大 大 加 强 了 模型 的 表达 能 力 ， 让 
神经 网 络 从 宽度 的 方向 走向 了 深度 的 方向 。 这 为 之 后 的 深度 学 习 葛 定 了 基础 。 在 第 4 章 中 
将 通过 具体 的 样 例 来 说 明 深层 的 神经 网 络 是 可 以 很 好 地 解决 类 似 异 或 问题 等 线性 不 可 分 问 
题 的 。 

除了 解决 了 线性 不 可 分 问题 ， 在 20 世纪 80 年 代 末 ， 研 究 人 员 在 降低 训练 神经 网 络 的 
计算 复杂 度 上 也 取得 了 突破 性 成 就 。David Everett Rumelhart 教授 、Geoffrey Everest Hinton 
教授 和 Ronald J. Williams 教授 于 1986 年 在 自然 杂志 上 发 表 的 Learning Representations by 
Back-propagating errors 文章 中 首次 提出 了 反 向 传播 的 算法 (back propagation )， 此 算法 大 幅 
降低 了 训练 神经 网 络 所 需要 的 时 间 。 直 到 今天 ， 反 向 传播 算法 仍然 是 训练 神经 网 络 的 主要 
方法 。 在 神经 网 络 训 练 算法 改进 的 同时 ， 计 算 机 的 飞速 发 展 也 使 得 80 年 代 末 的 计算 能 力 相 
比 70 年 代 有 了 突飞猛进 的 增长 。 于 是 神经 网 络 在 80 年 末 到 90 年 代 初 又 迎 来 了 发 展 的 高 峰 
期 。 如 今 使 用 得 比较 多 的 一 些 神经 网 络 结构 ， 比 如 卷 积 神经 网 络 和 循环 神经 网 络 ， 在 这 段 
时 间 都 得 到 了 很 好 的 发 展 。 Sepp Hochreiter 教授 和 Juergen Schmidhuber 教授 于 1991 年 提出 
的 LSTM 模型 (long short-term memory) 可 以 有 效 地 对 较 长 的 序列 进行 建 模 ， 比 如 一 句 话 
或 者 一 段 文章 。 直 到 今天 ，LSTM 都 是 解决 很 多 自然 语言 处 理 、 机 器 翻译 、 语 音 识别 、 时 序 
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预测 等 问题 最 有 效 的 方法 。 在 第 8 章 中 将 更 加 详细 地 介绍 循环 神经 网 络 和 LSTM 模型 。 

然而 ， 在 神经 网 络 发 展 的 同时 ， 传 统 的 机 器 学 习 算 法 也 有 了 突破 性 的 进展 ， 并 在 90 年 
代 末 逐步 超越 了 神经 网 络 ， 成 为 当时 机 器 学 习 领 域 最 常用 的 方法 。 以 手写 体 识别 为 例 ， 在 
1998 年 ， 使 用 支持 向 量 机 (support vector machine) 的 算法 可 以 把 错误 率 降 低 到 0.8%。 这 
样 的 精确 度 是 当时 的 神经 网 络 无 法 达到 的 。 导 致 这 种 情况 主要 有 两 个 原因 。 首 先 ， 虽 然 训 
练 神经 网 络 的 算法 得 到 了 改进 ， 但 在 当时 的 计算 资源 下 ， 要 训练 深层 的 神经 网 络 仍然 是 非 
常 困难 的 。 其 次 ， 当 时 的 数据 量 比较 小 ， 无 法 满足 训练 深层 神经 网 络 的 需求 。 

随 着 计算 机 性 能 的 进一步 提高 ， 以 及 云 计 算 、GPU 的 出 现 ， 到 2010 年 左右 ， 计 算 量 
已 经 不 再 是 阻碍 神经 网 络 发 展 的 问题 。 与 此 同时 ， 随 着 互联 网 + 的 发 展 ， 获 取 海 量 数据 也 不 
再 困难 。 这 让 神经 网 络 所 面临 的 几 个 最 大 问题 都 得 到 解决 ， 于 是 神经 网 络 的 发 展 也 迎 来 了 
新 的 高 潮 。 在 2012 年 ImageNet 举办 的 图 像 分 类 竞赛 (ImageNet Large Scale Visual 
Recognition Challenge, ILSVRC) 中 ,由 Alex Krizhevsky 教授 实现 的 深度 学 习 系统 AlexNet 
赢得 了 冠军 。 自 此 之 后 ， 滩 度 学 习 〈deep learing) 作为 深层 神经 网 络 的 代名词 被 大 家 所 熟 
知 。 深 度 学 习 的 发 展 也 开启 了 一 个 AI 的 新 时 代 。 图 1-6 展示 了 “deep learning” 这 个 词 在 
最 近 十 年 谷歌 搜索 的 热度 趋势 。 从 图 中 可 以 看 出 ， 从 2012 年 之 后 ， 深 度 学 习 的 热度 呈 指 数 
级 上 升 ， 到 2016 年 时 ， 深 度 学 习 已 经 成 为 了 谷歌 上 最 热门 的 搜索 词 。 在 2013 年 ， 深 度 学 
习 被 麻 省 理工 (MIT) 评 为 了 年 度 十 大 科技 突破 之 一 "。 如 今 ， 深 度 学 习 已 经 从 最 初 的 图 像 
识别 领域 扩展 到 了 机 器 学 习 的 各 个 领域 。 下 面 的 1.3 节 将 具体 介绍 目前 深度 学 习 在 一 些 主 
要 人 工 智能 领域 的 应 用 。 


热度 








2006-01 2007-01 2008-01 2009-01 2010-01 2011-01 2012-01 2013-01 2014-01 2015-01 2016-01 
年 份 


1-6 “deep leaing” 最 近 十 年 在 谷歌 搜索 的 热度 趋势 


(此 图 片 基 于 于 谷歌 趋势 ，https://www.google.com/trends/， 词 汇 的 热度 按 0-100 分 为 100 个 等 级 : 
0 表示 最 低 的 热度 ，100 表示 最 流行 的 搜索 词 ) 


Q@ 具体 报道 参见 : https://www.technologyreview.com/lists/technologies/2013/。 
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1.3 ”深度 学 习 的 应 用 


深度 学 习 最 早 兴 起 于 图 像 识别 ， 但 是 在 短 短 几 年 时 间 内 ， 深 度 学 习 推广 到 了 机 器 学 习 
的 各 个 领域 。 如今 ， 深 度 学 习 在 很 多 机 器 学 习 领 域 都 有 非常 出 色 的 表现 ， 在 图 像 识 别 、 语 
音 识 别 、 音 频 处 理 、 自 然 语言 处 理 、 机 器 人 、 生 物 信息 处 理 、 化 学 、 电 脑 游 戏 、 搜 索引 擎 、 
网 络 广告 投放 、 医 学 自动 诊断 和 金融 等 各 大 领域 均 有 应 用 。 本 节 将 选取 几 个 深度 学 习 应 用 
比较 广泛 的 领域 进行 详细 的 介绍 。 但 深度 学 习 的 应 用 不 仅 限于 本 节 中 所 介绍 的 领域 ， 在 每 
个 领域 中 的 应 用 也 不 限于 列举 出 的 儿 个 方面 。 


1.3.1 计算 机 视觉 


计算 机 视觉 是 深度 学 习 技术 最 早 实现 突破 性 成 就 的 领域 ,在 1.2 节 中 介绍 过 , 随 着 2012 
年 深度 学 习 算 法 AlexNet 赢得 图 像 分 类 比赛 ILSVRC (ImageNet Large Scale Visual 
Recognition Challenge ) 冠 军 , 深 度 学 习 开始 受到 学 术 界 广泛 的 关注 ,ILSVRC 是 基于 ImageNet 
图 像 数 据 集 举办 的 图 像 识别 技术 比赛 ， 这 个 比赛 在 计算 机 视觉 领域 有 极 高 的 影响 力 。 

图 1-7 展示 了 历年 ILSVRC 比赛 的 情况 。 从 图 1-7 中 可 以 看 到 ， 在 深度 学 习 被 使 用 之 
前 ， 传 统计 算 机 视觉 的 方法 在 ImageNet 数据 集 上 最 低 的 Top5 错误 率 为 26% 。 从 2010 年 
到 2011 年 ,基于 传统 机 器 学 习 的 算法 并 没有 带 来 正确 率 的 大 幅 提 升 。 在 2012 年 时 , Geoffrey 
Everest Hinton 教授 的 研究 小 组 利用 深度 学 习 技 术 将 ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 
到 了 16%。 而 且 ，AlexNet 深度 学 习 模型 只 是 一 个 开始 ， 在 2013 年 的 比赛 中 ， 排 名 前 20 
的 算法 都 使 用 了 深度 学 习 。 从 2013 年 之 后 ，ILSVRC 上 基本 就 只 有 深度 学 习 算 法 参赛 了 。 

从 2012 年 到 2015 年 间 ， 通 过 对 深度 学 习 算法 的 不 断 研究 ，ImageNet 图 像 分 类 的 错误 
率 以 每 年 4% 的 速度 递减 。 这 说 明 深 度 学 习 完 全 打破 了 传统 机 器 学 习 算法 在 图 像 分 类 上 的 瓶 
颈 ， 让 图 像 分 类 问题 得 到 了 更 好 的 解决 。 如 图 1-7 所 示 ， 到 2015 年 时 ， 深 度 学 习 算法 的 错 
误 率 为 4%， 已 经 成 功 超越 了 人 工 标注 的 错误 率 〈5%)， 实 现 了 计算 机 视觉 研究 领域 的 一 个 
突破 。 

在 ImageNet 数据 集 上 ,深度 学 习 不 仅 突破 了 图 像 分 类 的 技术 瓶颈 ,同时 也 突破 了 物体 
识别 的 技术 瓶颈 。 物 体 识别 的 难度 比 图 像 分 类 更 高 。 图 像 分 类 问题 只 需 判 断 图 片 中 包含 哪 
一 种 物体 。 但 在 物体 识别 问题 中 ， 需 要 给 出 所 包含 物体 的 具体 位 置 。 而 且 一 张 图 片 中 可 能 
出 现 多 个 需要 识别 的 物体 。 图 1-8 展示 了 ILSVRC2013 物体 识别 数据 集中 的 样 例 图 片 。 每 


@ 在 ImageNet 图 像 分 类 问题 上 ， 大 部 分 研究 都 使 用 Top5 错误 率 来 评价 模型 优 劣 。 第 6 章 将 更 加 详细 地 
介绍 ImageNet 数据 集 。 
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一 张 图 片 中 所 有 可 以 被 识别 的 物体 都 被 不 同 颜色 的 方 框 标注 了 出 来 。 在 2013 年 时 , 使 用 传 
统 机 器 学 习 算法 可 以 达到 的 MAP (mean average precision)“ 值 为 0.23。2016 年 时 ， 使 用 了 
6 种 不 同 深度 学 习 模 型 的 集成 算法 〈ensemble algorithm ) 成功 将 MAP 提高 到 了 0.66”。 


30% 28% 
26% 
25% ~- 人 工 标注 错误 弟 
20% 
16% 
5 12% 
全 10% 
9 7% 
5% ”一 一 -一 -是 办 -一 -一 --- 昨 全 一 一 -办 -------- 首 办 --------- A -39------ 
桔 i 
2010 2011 2012 2013 2014 2015 2016 


图 1-7 历年 ILSVRC 图 像 分 类 比赛 最 佳 算法 的 错误 率 





图 1-8 ILSVRC2013 物体 识别 数据 集中 的 样 例 图 片 ” 


在 技术 革新 的 同时 ， 工 业界 也 将 图 像 分 类 、 物 体 识别 应 用 于 各 种 产品 中 了 。 在 谷歌 ， 
图 像 分 类 、 物 体 识 别 技术 已 经 被 广泛 应 用 于 谷歌 无 人 驾驶 车 、YouTube、 谷 歌 地 图 、 谷 歌 图 
像 搜索 等 产品 中 。 图 1-9 中 展示 了 使 用 谷歌 图 像 搜索 来 辨别 动物 。 谷 歌 通过 图 像 处 理 技术 
可 以 归纳 出 图 片 中 的 主要 内 容 并 实现 以 图 搜 图 的 功能 。 这 些 技术 在 国内 的 百度 、 阿 里 、 腾 
讯 等 科技 公司 也 已 经 得 到 了 广泛 的 应 用 。 


GD http://image-net.org/challenges/LSVRC/2013/index#task 中 有 更 多 关于 ILSVRC2013 物体 识别 数据 集 的 介绍 。 
@ 数字 出 自 ILSVRC 官网 : http://image-net.org/challenges/LSVRC/2016/results 。 
人 @) 图 片 来 自 于 ILSVRC 官网 : http://image-net.org/challenges/LSVRC/2013/。 
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Google SR | ney wh bue eyes ay 加 | 


AB Images Maps Shopping Morev Search tools 





About 20 .500 000 results (1.43 seconds) 


| Image size- 
282 < 179 
-mm 
下 Find other sizes of this image: 
Al sizes - Large 


Best guess for this image: husky with blue eyes 


(a) 在 谷歌 图 片 搜索 中 提供 一 张 哈士奇 (一 种 狗 ) 的 图 片 ， 得 到 的 结果 为 “husky with blue eyes〈 蓝 色 眼睛 的 哈 十 
奇 )*。 昌 然 从 图 片 中 无 法 确认 眼睛 是 否 为 蓝 色 ， 但 是 谷歌 可 以 非常 精确 的 识别 出 狗 的 品种 。 














Google | 二 rp 电 


AI tmages Maps Shopping More Y Search tools 





About 25.270,000.000 results (0.95 seconds) 


Image size: 
275 * 183 
Find other sizes of this image: 
All sizes - Medium - Large 
| 


Best guess for this image: wolf public domain 


(b) 在 谷歌 图 片 搜索 中 提供 一 张 狼 的 图 片 ， 得 到 的 结果 为 “wolf public domain 《旷野 上 的 狼 )”。 虽然 这 张 图 片 和 (a) 
中 哈士奇 的 图 片 非常 接近 ， 但 是 谷歌 可 以 非常 精确 的 识别 动物 的 种 类 。 


1-9 通过 谷歌 图 像 搜 索 识别 动物 


在 物体 识别 问题 中 ， 人 脸 识 别 是 一 类 应 用 非常 广泛 的 技术 。 它 既 可 以 应 用 于 娱乐 行业 ， 
也 可 以 应 用 于 安防 、 风 控 行 业 。 在 娱乐 行业 中 ， 基 于 人 脸 识别 的 相机 自动 对 焦 、 自 动 美 颜 
基本 已 经 成 为 每 一 款 自 拍 软 件 的 必 备 功能 。 在 安防 、 风 控 领 域 ， 人 脸 识 别 应 用 更 是 大 大 提 
高 了 工作 效率 并 节省 了 人 力 成 本 。 比 如 在 互联 网 金融 行业 ， 为 了 控制 贷款 风险 ， 在 用 户 注 
册 或 者 贷款 发 放 时 需要 验证 本 人 信息 。 个 人 信息 验证 中 一 个 很 重要 的 步骤 是 验证 用 户 提供 
的 证 件 和 用 户 是 同一 个 人 。 通 过 人 脸 识 别 技术 ， 这 个 过 程 可 以 被 更 加 高 效 地 实现 。 

在 深度 学 习 得 到 广泛 应 用 之 前 ， 基 于 传统 的 机 器 学 习 技 术 并 不 能 很 好 地 满足 人 脸 识别 
的 精度 要 求 。 人 脸 识别 的 最 大 挑战 在 于 不 同人 脸 的 差异 较 小 ， 有 时 同一 个 人 在 不 同 光照 条 
件 、 姿 态 或 者 表情 下 脸 部 的 差异 甚至 会 比 不 同人 脸 之 间 的 差异 更 大 。 传 统 的 机 器 学 习 算 法 
很 难 抽象 出 足够 有 效 的 特征 ， 使 得 学 习 模型 既 可 以 区 分 不 同 的 个 体 ， 又 可 以 尽量 减少 相同 
个 体 在 不 同 环境 中 的 变化 。 深 度 学 习 技术 通过 从 海量 数据 中 自动 习 得 更 加 有 效 的 人 脸 特征 
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表达 , 可 以 很 好 地 解决 这 个 问题 。 在 人 脸 识 别 数 据 集 LFW” (Labeled Faces in the Wild) 上 ， 
基于 深度 学 习 算 法 的 系统 DeepID2 可 以 达到 99.47% 的 识别 率 。 

在 计算 机 视觉 领域 ， 光 学 字符 识别 (optical character recognition，OCR) 也 是 使 用 深度 
学 习 较 早 的 领域 之 一 。 所 谓 光 学 字符 识别 ， 就 是 使 用 计算 机 程序 将 计 算 机 无 法 理解 的 图 片 中 
的 字符 ， 比 如 数字 、 字 母 、 汉 子 等 符号 ， 转化 为 计算 机 可 以 理解 的 文本 格式 。 早 在 1989 年 ， 
Yann LeCun 教授 发 表 的 论文 Backpropagation Applied to Handwritten Zip Code Recognition 将 
卷 积 神经 网 络 成 功 应 用 到 了 识别 手写 邮政 编码 的 问题 上 ， 达 到 了 接近 95% 的 正确 率 。 在 
MNIST 手写 体 数字 识别 数据 集 上 ， 最 新 的 深度 学 习 算法 可 以 达到 99.77% 的 正确 率 ， 这 也 
超过 了 人 类 的 表现 。 第 5 章 将 更 加 详细 地 介绍 MNIST 手写 体 数 字 识 别 数据 集 。 

光学 字符 识别 在 工业 界 的 应 用 也 十 分 广泛 。 在 21 世纪 初期 ，Yann LeCun 教授 将 基于 
卷 积 神经 网 络 的 手写 体 数 字 识 别 系统 应 用 于 银行 支票 的 数额 识别 , 这 个 系统 在 2000 年 左右 
已 经 处 理 了 美国 全 部 支票 数量 的 10%~20% 。 谷歌 也 将 数字 识别 技术 用 在 了 谷歌 地 图 的 开 
发 中 。 谷 歌 实 现 的 数字 识别 系统 可 以 从 谷歌 街景 图 中 识别 任意 长 度 的 数字 ， 并 在 SVHN 数 
据 集 * 上 可 以 达到 96% 的 正确 率 ”"。 到 2013 年 为 止 ， 这 个 系统 已 经 帮助 谷歌 抽取 了 超过 1 
亿 个 门牌 号 码 ， 大 大 加 速 了 谷歌 地 图 的 制作 过 程 并 节省 了 巨额 的 人 力 成 本 。 而 且 ， 光 学 字 
符 识别 技术 在 谷歌 的 应 用 也 不 仅 限于 数字 识别 。 谷歌 图 书 通过 文字 识别 技术 将 扫描 的 图 书 
数字 化 ， 从 而 实现 图 书 内 容 的 搜索 功能 。 


1.3.2 音 识 别 


深度 学 习 在 语音 识别 领域 取得 的 成 绩 也 是 突破 性 的 。 2009 年 深度 学 习 的 概念 被 引入 语 
音 识 别 领域 , 并 对 该 领域 产生 了 巨大 的 影响 。 在 短 短 几 年 时 间 内 ， 深度 学 习 的 方法 在 TIMIT 
数据 集 8 上 将 基于 传统 的 混合 高 斯 模型 (gaussian mixture model， GMM) 的 错误 率 从 21.7% 
降低 到 了 使 用 深度 学 习 模型 的 17.9%。 如 此 大 的 提高 幅度 很 快 引起 了 学 术 界 和 工业 界 的 广 
泛 关注 。 从 2010 年 到 2014 年 间 ， 在 语音 识别 领域 的 两 大 学 术 会 议 IEEE-ICASSP 和 





Q@ 更 多 关于 人 脸 识 别 数据 集 LFW 的 信息 可 以 参考 其 官方 网 站 : http://vis-www.cs.umass.edu/lfw/。 

加 数字 出 自 Yann LeCun 教授 在 CERN 研讨 会 上 的 报告 Deep Learning and the Future of 41。 报告 资料 可 以 
参考 : https://indico.cern.ch/event/510372/。 

@®@ svHN 数据 集 是 斯 坦 福 大 学 开源 的 数据 集 ， 更 多 关于 该 数据 的 信息 可 以 参考 其 官方 网 站 : 
http ://ufldl.stanford.edu/housenumbers/。 

图 数字 参见 : Goodfellow I J, Bulatov Y, Ibarz J, et al. Multi-digit Number Recognition from Street View Imagery 
using Deep Convolutional Neural Networks [J]. Computer Science, 2013. 

回 更 多 关于 TIMIT 数据 集 的 信息 可 以 参考 其 官方 网 站 : https://catalog.ldc.upenn.edu/ldc93s1。 
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Interspeech 上 ， 深 度 学 习 的 文章 呈现 出 逐年 递增 的 趋势 。 在 工业 界 ， 包 括 谷 歌 、 芋 果 、 微 
软 、IBM、 百度 等 在 内 的 国内 外 大 型 IT 公司 提供 的 语音 相关 产品 , 比如 谷歌 的 Google Now、 
苹果 的 Siri、 微 软 的 Xbox 和 Skype 等 ， 都 是 基于 深度 学 习 算法 。 

在 2009 年 谷歌 启动 语音 识别 应 用 时 ， 使 用 的 是 在 学 术 界 已 经 研究 了 30 年 的 混合 高 斯 
模型 。 到 2012 年 时 ,深度 学 习 的 语音 识别 模型 已 经 取代 了 混合 高 斯 模型 ， 并 成 功 将 谷歌 语 
音 识别 的 错误 率 降低 了 20%， 这 个 改进 幅度 超过 了 过 去 很 多 年 的 总 和 。 微 软 的 研究 人 员 通 
过 大 量 实验 得 出 ， 使 用 深度 学 习 的 算法 比 使 用 混合 高 斯 模型 的 算法 更 能 够 从 海量 数据 中 获 
益 。 随 着 数据 量 的 加 大 ， 使 用 深度 学 习 模 型 无 论 在 正确 率 的 增长 数值 上 还 是 在 增长 比率 上 
都 要 优 于 使 用 混合 高 斯 模型 的 算法 ”。 这 样 的 增长 在 语音 识别 的 历史 上 是 从 未 出 现 过 的 , 而 
深度 学 习 之 所 以 能 完成 这 样 的 技术 突破 ， 最 主要 的 原因 是 它 可 以 自动 地 从 海量 数据 中 提取 
更 加 复杂 且 有 效 的 特征 ， 而 不 是 如 高 斯 混合 模型 中 需要 人 工 提 取 特 征 。 

基于 深度 学 习 的 语音 识别 已 经 被 应 用 到 了 各 个 领域 ， 其 中 最 被 大 家 所 熟知 的 应 该 是 苹 
果 公 司 推出 的 Siri 系统 。Siri 系统 可 以 根据 用 户 的 语音 输入 完成 相应 的 操作 功能 , 这 大 大 方 
便 了 用 户 的 使 用 。 目 前 ，Siri 已 经 支持 包括 中 文 在 内 的 20 种 不 同 语言 。 与 Siri 类 似 ， 谷 歌 
也 在 安 卓 (Android) 系统 上 推出 了 谷歌 语音 搜索 (Google Voice Search)。 另 外 一 个 成 功 应 
用 语音 识别 的 系统 是 微软 的 同 声 传译 系统 。 在 2012 年 的 微软 亚洲 研究 院 (Microsoft Research 
Asia，MSRA) 二 十 一 世纪 计算 大 会 (21st Century Computing) 上 ， 微 软 高 级 副 总 裁 Richard 
Rashid 现场 演示 了 微软 开发 的 从 英语 到 汉语 的 同 声 传译 系统 该 演讲 受到 了 非常 广泛 的 关 
注 ， 在 YouTube 网 站 上 已 经 有 超过 一 百 万 次 的 播放 量 。 同 声 传译 系统 不 仅 要 求 计算 机 能 够 
对 输入 的 语音 进行 识别 ， 它 还 要 求 计算 机 将 识别 出 来 的 结果 翻译 成 另外 一 门 语言 ， 并 将 翻 
译 好 的 结果 通过 语音 合成 的 方式 输出 。 在 没有 深度 学 习 之 前 ， 要 完成 同 声 传译 系统 中 的 任 
意 一 个 部 分 都 是 非常 困难 的 。 而 随 着 深度 学 习 的 发 展 ， 语 音 识别 、 机 器 翻译 以 及 语音 合成 
都 实现 了 巨大 的 技术 突破 。 如 今 ， 微 软 研发 的 同 声 传译 系统 已 经 被 成 功 地 应 用 到 了 Skype 
网 络 电 话 中 。 


1.3.3 ”自然 语言 处 理 


深度 学 习 在 自然 语言 处 理 领 域 的 应 用 也 同样 广泛 。 在 过 去 的 几 年 中 ， 深 度 学 习 已 经 在 


Q( 参见 :LiD. dechievements and Challenges of Deep Learning [J]. Apsipa Transactions on Signal & Information 
Processing, 2015. 
@) 演讲 视频 地 址 为 http://v.youku.com/v_show/id_ XNDeyOTUwNjMy.html。 
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语言 模型 (language modeling)、 机 器 翻译 、 词 性 标注 (part-of-speech tagging)、 实体 识别 
(named entity recognition，NER)、 情 感 分 析 (sentiment analysis)、 广告 推荐 以 及 搜索 排序 
等 方向 上 取得 了 突出 成 就 。 与 深度 学 习 在 计算 机 视觉 和 语音 识别 等 领域 的 突破 类 似 ， 深 度 
学 习 在 自然 语言 处 理 问 题 上 的 突破 也 是 能 够 更 加 智能 、 自动 地 提取 复杂 特征 。 在 自然 语言 
处 理 领 域 ， 使 用 深度 学 习 实 现 智 能 特征 提取 的 一 个 非常 重要 的 技术 是 单词 向 量 (word 
embedding)。 单词 向 量 是 深度 学 习 解决 很 多 上 述 自然 语言 处 理 问 题 的 基础 ”。 

在 自然 语言 处 理 领域 ， 一 个 非常 未 手 的 问题 在 于 自然 语言 中 有 很 多 词 表 达 了 相近 的 意 
思 ， 比 如 “ 狗 ” 和 “ 犬 ”就 几乎 表达 了 同样 的 意思 。 然 而 “ 狗 ” 和 “ 犬 ” 的 编码 在 计算 机 
中 可 能 差别 很 大 ， 所 以 计算 机 就 无 法 很 好 地 理解 自然 语言 所 表达 的 语义 。 为 了 解决 这 个 问 
题 ， 研 究 人 员 人 工 建立 了 大 量 的 语料库 。 通 过 这 些 语料库 ， 可 以 大 致 刻画 自然 语言 中 单词 
之 间 的 关系 。 在 建立 好 的 语料库 中 ， WordNet”、ConceptNet“ 和 FrameNete 是 其 中 影响 力 比 
较 大 的 几 个 。 然 而 语料库 的 建立 需要 花费 很 多 人 力 物力 ， 而 且 扩展 能 力 有 限 。 单 词 向 量 提 
供 了 一 种 更 加 灵活 的 方式 来 刻画 单词 的 语义 。 

单词 向 量 会 将 每 一 个 单词 表示 成 一 个 相对 较 低 维度 的 向 量 (比如 100 维 或 200 维 )。 对 
于 语义 相近 的 单词 ， 其 对 应 的 单词 向 量 在 空间 中 的 距离 也 应 该 接近 。 于 是 单词 语义 上 的 相 
似 度 可 以 通过 空间 中 的 距离 来 描述 。 单词 向 量 不 需要 通过 人 工 的 方式 设 定 ， 它 可 以 从 互联 
网 上 海量 非 标注 文本 中 学 习 得 到 。 使 用 斯 坦 福 大 学 开源 的 GloVe 单词 向 量 可 以 得 到 与 单词 
“frog (青蛙 )” 所 对 应 的 单词 向 量 最 相似 的 5 个 单词 分 别 是 “frogs (青蛙 复数 )” “toad〈 蜂 
内 )”、*ditoria 〈 两 滨 蛙 属 )” “leptodactylidae〈 细 趾 蟾 科 )” 和 “Tana (中 国 林 蛙 )”。 从 这 
个 样 例 可 以 看 出 ， 单 词 向 量 可 以 非常 有 效 地 刻画 单词 的 语义 。 通过 单词 向 量 还 可 以 进行 单 
词 之 间 的 运算 。 比 如 用 单词 “king” 所 代表 的 向 量 减 去 单词 “man 所 代表 的 向 量 得 到 的 结 
果 向 量 和 单词 “queen” 减 去 “woman” 得 到 的 结果 向 量 相 似 。 这 说 明 在 单词 向 量 中 ， 已 经 
隐 含 了 表达 性 别 的 概念 。 





四 参见 : Mikolov 下 Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their 
Compositionality [J]. Advances in Neural Information Processing Systems, 2013, 26.. 

回 参见 : Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch [J]. Journal 
of Machine Learning Research, 2011. 

图 更 多 关于 WordNet 的 资料 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 

@ 更 多 关于 ConceptNet 的 资料 可 以 参考 其 官方 网 站 : http://conceptnet5.media.mit.edu/。 

回 更 多 关于 FrameNet 的 资料 可 以 参考 其 官方 网 站 : https://framenet.icsi.berkeley.edu/fndrupal/。 

图 具体 关于 GloVe 的 介绍 可 以 参考 其 官方 网 站 : http://nlp.stanford.edu/projects/glove/。 


15 


wwaibbt.com DODODOOODODOD 


TensorFlow: 实战 Google 深度 学 习 框 架 





通过 对 目 然 语言 中 单词 更 好 地 抽象 与 表达 ， 深 度 学 习 在 自然 语言 处 理 的 很 多 核心 问题 
上 都 有 突破 性 的 进展 。 机 器 翻译 就 是 其 中 的 一 个 例子 。 图 1-10 展示 了 谷歌 翻译 提供 的 传统 
算法 和 深度 学 习 算法 翻译 不 同 语言 对 的 质量 对 比 图 。 从 图 1-10 可 以 看 出 ,在 所 有 的 语言 对 
上 ， 深 度 学 习 算 法 都 可 以 大 幅度 提高 翻译 的 质量 。 根 据 谷 歌 的 实验 结果 ， 在 主要 的 语言 对 
上 ， 使 用 深度 学 习 可 以 将 机 器 翻译 算法 的 质量 提高 55% 到 85%。 表 1-1 对 比 了 不 同 算法 翻 
译 同一 句 话 的 结果 。 从 表 中 可 以 直观 地 看 到 深度 学 习 算法 带 来 翻译 质量 的 提高 。 在 2016 年 
9 月 ， 谷 歌 正式 上 线 了 基于 深度 学 习 的 中 译 英 软件 。 现 在 在 谷歌 翻译 产品 中 ， 已 经 有 8 种 
语言 是 由 基于 深度 学 习 的 翻译 算法 完成 的 。 





5 A 

” a a | he | 
3 di 了 

2 

1 

o 


英语 -> 西班牙 语 英语 -> 法 语 英语 -> 中 文 西班牙 语 -> 英语 法 语 .> 英 请 中 文 -> 英语 
曾 基 于 传统 机 器 学 习 算 法 素 搞 。 曙 基 于 深度 学 习 算 法 来 现 。 四 人工 表 现 


图 1-10 不 同 翻译 算法 在 不 同 语言 上 的 翻译 质量 ”( 其 中 0 表示 最 低 的 质量 ，6 表示 最 好 的 质量 ) 











表 1-1 不 同 翻 译 算法 的 翻译 效果 对 比 表 
李克强 此 行将 启动 中 加 总 理 年 度 对 话机 制 , 与 加 拿 大 总 理 杜 鲁 多 举行 两 国 总 理 首次 年 度 对 话 。 
基于 传统 机 器 学 习 算 法 的 | Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime 












Minister Trudeau two prime ministers held its first annual session 


基于 深度 学 习 算 法 的 翻译 | Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and 
结果 hold the first annual dialogue between the two premiers. 


人 工 翻译 结果 Li Keqiang will initiate the annual dialogue mechanism between premiers of China and Canada 
工 翻译 结 
during this visit, and hold the first annual dialogue with Premier Trudeau of Canada. 






QD 数字 出 自 谷 歌 技 术 博 客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine html。 
@ 此 表 中 数据 出 自 谷歌 技术 博客 : https://research.googleblog.com/2016/09/a-neural-network-for-machine html。 


16 
wwaibbt.com DODOOOOOD 


第 1 章 深度 学 习 简介 





情感 分 析 是 自然 语言 处 理 问题 中 另外 一 个 非常 经 典 的 应 用 。 情 感 分 析 最 核心 的 问题 就 
是 从 一 段 自然 语言 中 判断 作者 对 评价 的 主体 是 好 评 还 是 差 评 。 情 感 分 析 在 工业 界 有 着 非常 
广泛 的 应 用 。 随 着 互联 网 的 发 展 ， 用 户 会 在 各 种 不 同 的 地 方 表达 对 于 不 同 产品 的 看 法 。 对 
于 服务 行业 或 者 制造 业 ， 及 时 掌握 用 户 对 其 产品 或 者 服务 的 评价 是 提高 用 户 满意 度 非常 有 
效 的 途径 。 在 金融 行业 , 通过 分 析 用 户 对 不 同 产品 和 公司 的 态度 可 以 对 投资 选择 提供 帮助 。 
Derwent Capital Markets 于 2012 年 5 月 正式 上 线 ， 它 是 世界 首 家 通过 对 社交 网 络 Twitter 上 
推 文 进行 情感 分 析 来 指导 证 券 交易 "的 对 冲 基 金 公司 。 在 同年 8 月 的 一 份 调查 中 显示 ， 该 公 
司 的 平均 收益 率 1.85% 远 远 超过 了 平均 0.76% 的 收益 率 。 类 似 的 ， 也 有 研究 表明 ， 在 政治 
选举 中 ,通过 对 Twitter 上 推 文 情感 分 析 得 出 的 结果 和 通过 传统 的 调查 、 投 票 等 方法 得 出 的 
结果 高 度 一 致 *。 在 情感 分 析 问 题 上 ， 深 度 学 习 也 可 以 大 幅 提 高 算法 的 准确 率 。 在 斯 坦 福 大 
学 开源 的 Sentiment Treebank 数据 集 上 ”, 使 用 深度 学 习 的 算法 可 以 将 语句 层面 的 情感 分 析 正 确 
率 从 80% 提 高 到 85.4%。 在 短语 层面 上 ， 使 用 深度 学 习 的 算法 可 以 将 正确 率 从 71% 提 高 到 
80.7%"。 


1.3.4 人 机 博弈 


如 果 说 深度 学 习 在 图 像 识 别 领域 上 的 突破 掀起 了 学 术 界 的 研究 浪潮 ， 那 么 深度 学 习 在 
人 机 博弈 上 的 突破 使 得 这 个 概念 被 全 社会 所 熟悉 。 在 北京 时 间 2016 年 3 月 15 日 的 下 午 ， 
谷歌 开发 的 围棋 人 工 智能 系统 AlphaGo 以 总 比分 4: 1 战胜 了 韩国 棋 手 李 世 石 ， 成 为 第 一 
个 在 19x19 棋盘 上 战胜 人 类 围棋 冠军 的 智能 系统 。 虽然 AlphaGo 不 是 第 一 个 战胜 人 类 世界 
冠军 的 系统 ， 但 AlphaGo 的 胜利 绝对 是 人 工 智能 历史 上 的 一 座 里 程 碑 。 在 1997 年 IBM 的 
智能 国际 象棋 系统 深蓝 (deep blue) 击败 世界 冠军 卡 斯 帕 罗 夫 时 ， 所 依赖 的 更 多 是 计算 机 
的 计算 资源 ， 是 通过 暴力 搜索 (brute-force) 的 方式 尝试 更 多 的 下 棋 方法 从 而 战胜 人 类 。 然 


Q 参见 : Bollen 二 Mao H, Zeng X. Twitter mood predicts the stock market [J]. Journal of Computational 
Science, 2010. 

@) 参见 : O'Connor B, Balasubramanyan R, Routledge B R, et al. From Tiweets to Polls: Linking Text Sentiment 
to Public Opinion Time Series [C]// International Conference on Weblogs and Social Media, ICWSM 2010, 
Washington, Dc, Usa, May. DBLP, 2010. 

图 http://nlp.stanford.edu/sentiment/ 中 给 出 了 更 多 关于 Sentiment Treebank 的 信息 。 

几 Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment 
treebank[J]. 2013. 
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而 这 种 方式 在 围棋 上 是 完全 不 适用 的 ， 因 为 搜索 围棋 下 子 方法 的 复杂 度 为 10”， 而 国际 象 
棋 只 有 10%。 

为 了 战胜 人 类 围棋 世界 冠军 ，AlphaGo 需要 使 用 更 加 智能 的 方式 。 深 度 学 习 技术 为 这 
种 方式 提供 了 可 能 。AlphaGo 主要 是 由 三 个 部 分 组 成 ， 他 们 分 别 是 蒙特 卡 罗 树 搜索 (Monte 
Carlo tree search，MCTS)、 估 值 网 络 (value network) 和 走 棋 网 络 (policy network)。 蒙 特 
卡 罗 树 搜索 算法 实现 了 对 不 同 落 子 点 的 搜索 ， 不 过 和 之 前 的 纯 暴力 搜索 不 同 ，AlphaGo 中 
使 用 的 蒙特 卡 罗 树 会 根据 估 值 网 络 和 走 棋 网 络 对 落 子 后 局 势 的 评判 结果 来 更 加 智能 地 寻找 
最 佳 落 子 点 。 

AlphaGo 背后 真正 的 大 脑 是 估 值 网 络 和 走 横 网络， 而 这 两 个 组 件 都 是 通过 深度 学 习 实 
现 的 。 走 棋 网 络 解决 的 问题 是 给 定 当前 棋盘 ， 预 测 下 一 步 应 该 在 哪 落 子 。 通 过 在 大 量 人 类 
围棋 高 手 对 弈 的 棋谱 获取 的 训练 数据 ， 走 横 网 络 能 够 以 57% 的 准确 率 预 测 人 类 围棋 高 手下 
一 步 的 落 子 点 。 然 而 ， 仅 仅 预 测 人 类 高 手 的 落 子 方法 是 不 够 的 ， 为 了 能 够 战胜 人 类 冠军 ， 
走 棋 网 络 还 通过 自己 跟 自己 对 弈 的 方式 来 进一步 提高 落 子 水 平 。AlphaGo 的 另外 一 个 大 脑 
是 估 值 网 络 ， 它 解决 的 问题 是 给 定 当 前 的 棋盘 ， 判 断 黑 棋 赢 的 概率 。 训 练 估 值 网 络 所 使 用 
的 数据 就 是 落 子 网 络 自己 和 自己 对 弈 时 产生 的 。 通 过 模特 卡 罗 树 搜索 的 方法 将 走 棋 网 络 和 估 
值 网 络 这 两 个 大 脑 有 机 地 结合 ，AlphaGo 才 最 终 以 悬殊 的 比分 战胜 了 人 类 的 围棋 世界 冠军 。 

AlphaGo 战神 人 类 世界 冠军 不 是 人 机 博弈 的 终点 ， 相 反 ， 这 只 是 一 个 开始 。AlphaGo 
的 开发 团队 DeepMind 最 近 又 宣布 了 他 们 的 下 一 个 目标 一 一 星际 争霸 2”。 星 际 争霸 2 是 暴 
雪 公司 (Blizzard) 开发 的 一 款 即时 战略 游戏 。 在 游戏 中 ， 玩 家 需要 采集 资源 、 建 造 建筑 、 
生产 战斗 单位 来 消灭 对 方 玩家 。 相 比 围棋 ， 星 际 争霸 2 对 于 人 工 智 能 系统 设计 的 难度 又 有 
指数 级 的 提高 。 首 先 ， 围 棋 的 落 子 方式 虽然 多 ， 但 也 是 有 限 的 。 而 人 工 智能 操作 星际 争霸 
2 时 ， 在 任意 一 个 时 刻 ， 人 工 智能 系统 需要 同时 〈 几 乎 同时 ) 操作 多 个 不 同 单位 ， 而 且 操 
作 的 方式 是 完全 开放 的 ， 几 乎 没有 限制 ， 所 以 确定 这 些 操作 很 难 通过 搜索 完成 。 其 次 ， 星 
际 争霸 2 是 一 个 信息 不 对 称 的 系统 。 下 围棋 时 对 弈 双方 看 到 的 棋盘 都 是 一 样 的 ， 而 星际 争 
霸 2 中 每 个 玩家 只 能 看 到 自己 的 地 盘 ， 这 要 求人 工 智能 系统 对 “局 势 ” 做 出 判断 。 第 三 ， 
星际 争霸 2 是 即时 对 战 游戏 ， 需 要 计算 机 在 很 短 的 时 间 内 做 出 判断 ， 这 对 人 工 智能 系统 的 
计算 速度 有 很 高 的 要 求 。 如 今 暴 雪 公 司 已 经 正式 开始 了 与 DeepMind 团队 的 合作 ， 并 将 在 
不 久之 后 开放 专门 为 人 工 智 能 研究 设计 的 星际 争霸 2 的 API。 在 星际 争霸 2 上 ， 人 工 智能 
何 时 能 战胜 人 类 ， 我 们 将 拭目以待。 





Q@ 具体 报道 参见 ，https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai-research-environment/。 
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1.4 深度 学 习 工具 介绍 和 对 比 


在 上 面 的 章节 中 已 经 介绍 了 深度 学 习 的 概念 以 及 历史 ， 并 给 出 了 不 少 成 功 应 用 深度 学 
习 的 样 例 。 然 而 ， 要 将 深度 学 习 更 快 且 更 便捷 地 应 用 于 新 的 问题 中 ， 选 择 一 款 深度 学 习 工 
具 是 必 不 可 少 的 步骤 。 这 一 节 将 介绍 深度 学 习 工 具 TensorFlow 的 主要 功能 和 特点 ， 并 将 对 
比 TensorFlow 和 其 他 主流 的 开源 深度 学 习 工 具 , 给 出 本 书 选择 TensorFlow 作为 主要 介绍 对 
象 的 依据 。TensorFlow 是 谷歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 。TensorFlow 计算 
框架 可 以 很 好 地 支持 深度 学 习 的 各 种 算法 ， 但 它 的 应 用 也 不 限于 深度 学 习 。 因 为 本 书 的 重 
点 是 介绍 使 用 TensorFlow 实现 深度 学 习 算法 , 所 以 本 书 中 将 略 去 TensorFlow 对 于 其 他 算法 
的 支持 ， 感 兴趣 的 读者 可 以 在 TensorFlow 的 官方 教程 https://www.tensorflow.org/tutorials 上 
找到 更 多 通过 TensorFlow 实现 非 深度 学 习 算 法 的 样 例 。 

TensorFlow 是 由 Jeff Dean 领头 的 谷歌 大 脑 团队 基于 谷歌 内 部 第 一 代 深 度 学 习 系 统 
DistBelief 改进 而 来 的 通用 计算 框架 。DistBelief 是 谷歌 2011 年 开发 的 内 部 深度 学 习 工 具 ， 
这 个 工具 在 谷歌 内 部 已 经 获得 了 巨大 的 成 功 。 基 于 DistBelief 的 ImageNet 图 像 分 类 系统 
Inception 模型 赢得 了 ImageNet2014 年 的 比赛 (ILSVRC)“。 通 过 DistBelief， 谷 歌 在 海量 
的 非 标注 YouTube 视屏 中 习 得 了 “ 猫 ” 的 概念 ， 并 在 谷歌 图 片 中 开创 了 图 片 搜索 的 功能 。 
使 用 DistBelief 训练 的 语音 识别 模型 成 功 将 语音 识别 的 错误 率 降 低 了 25%。 在 一 次 BBC 采 
访 中 ， 当 时 的 谷歌 首席 执行 官 Eric Schmidt 表示 这 个 提高 比率 相当 于 之 前 十 年 的 总 和 ”。 

虽然 DistBelief 已 经 被 谷歌 内 部 很 多 产品 所 使 用 ， 但 是 DistBelief 过 于 依赖 谷歌 内 部 的 
系统 架构 ， 很 难 对 外 开源 。 为 了 将 这 样 一 个 在 谷歌 内 部 已 经 获得 了 巨大 成 功 的 系统 开源 ， 
谷歌 大 脑 团 队 对 DistBelief 进行 了 改进 ,并 于 2015 年 11 月 正式 公布 了 基于 Apache 2.0 开源 
协议 的 计算 框架 TensorFlow。 相 比 DistBelief，TensorFlow 的 计算 模型 更 加 通用 、 计 算 速 度 
更 快 、 支 持 的 计算 平台 更 多 、 支 持 的 深度 学 习 算 法 更 广 而 且 系统 的 稳定 性 也 更 高 。 在 本 书 
后 面 的 章节 中 , 我 们 将 重点 介绍 TensorFlow 的 使 用 , 关于 TensorFlow 平台 本 身 的 技术 细节 
可 以 参考 谷歌 的 论文 TensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems'™。 


Q@ 在 第 6 章 中 将 具体 介绍 ILSVRC 比赛 以 及 Inception 模型 。 

@ 此 数字 来 源 于 : http://www.csmonitor.com/Technology/2015/0914/Google-chairman-We-re-making-real- 
progress-on-artificial-intelligence。 

图 人 参见: Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous 
Distributed Systems [J]. 2016. 
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如 今 在 谷歌 内 部 ，TensorFlow 已 经 得 到 了 广泛 的 应 用 。 在 2015 年 10 月 26 日 , 谷歌 正 
式 宣布 通过 TensorFlow 实现 的 排序 系统 RankBrain 上 线 。 相 比 一 些 传统 的 排序 算法 ， 使 用 
RankBrain 的 排序 结果 更 能 满足 用 户 需求 。 在 2015 年 彭 博 (Bloomberg) 的 报道 中 ”， 和 谷歌 
透露 了 在 谷歌 上 千 种 排序 算法 中 ，RankBrain 是 第 三 重要 的 排序 算法 。 基 于 TensorFlow 的 
系统 RankBrain 能 在 谷歌 的 核心 网 页 搜索 业务 中 占据 如 此 重要 的 地 位 ， 可 见 TensorFlow 在 
谷歌 内 部 的 重要 性 。 包 括 网 页 搜索 在 内 ，TensorFlow 已 经 被 成 功 应 用 到 了 谷歌 的 各 款 产 品 
之 中 。 如 今 ， 在 谷歌 的 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产 
品 之 中 都 可 以 看 到 基于 TensorFlow 的 系统 2。 在 经 过 半年 的 尝试 和 思考 之 后 ， 谷 歌 的 
DeepMind 团队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 用 TensorFlow 作为 实现 深度 学 习 算法 
的 工具 。 

除了 在 谷歌 内 部 大 规模 使 用 之 外 ，TensorFlow 也 受到 了 工业 界 和 学 术 界 的 广泛 关注 。 
在 Google IO 2016 的 大 会 上 ，Jeff Dean 提 到 已 经 有 1500 多 个 GitHub 的 代码 库 中 提 到 了 
TensorFlow， 而 只 有 5 个 是 谷歌 官方 提供 的 。 如 今 ， 包 插 优 步 (Uber)、Snapchat、Twitter、 
京东 、 小 米 等 国内 外 科技 公司 也 纷纷 加 入 了 使 用 TensorFlow 的 行列 ,正如 谷歌 在 TensorFlow 
开源 原因 中 所 提 到 的 一 样 ，TensorFlow 正在 建立 一 个 标准 ， 使 得 学 术 界 可 以 更 方便 地 交流 
学 术 研 究 成 果 ， 工 业界 可 以 更 快 地 将 机 器 学 习 应 用 于 生产 之 中 。 

除了 TensorFlow， 目 前 还 有 一 些 主流 的 深度 学 习 开 源 工具 。 表 1-2 中 总 结 了 这 些 工 具 
的 主要 情况 。 每 款 工具 都 有 各 自 的 特点 ， 由 于 篇 幅 所 限 ， 在 本 书 中 不 再 一 一 介绍 每 一 个 工 
具 目 前 的 优 缺 点 ， 感 兴趣 的 读者 可 以 参考 脚注 中 每 种 工具 的 官方 网 站 给 出 的 信息 。 


表 1-2 主流 的 深度 学 习 开 源 工具 总 结 表 ” 


TT 


leaming4i® Skvmind I Linux、Windows、Mac OS X、 
Deeplearming4j ymin ava、Scala、Clojure 
Android 


@@ 具体 报道 参见 :https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search- 
Over-to-ai-machines。 

@ TensorFlow 官方 网 站 : https://www.tensorflow.org/versions/r0.9/resources/uses.html 上 列 出 了 一 些 使 用 
TensorFlow 的 样 例 项 目 。 

图 具体 报 道 参见 谷歌 官方 技术 博客 : https:/research.googleblog.com/2016/04/deepmind-moves-to-tensorflow.html。 

@ 表 中 工具 根据 字母 序 排列 。 

图 Caffe 官方 网 站 : http://caffe.berkeleyvision.org/。 

@) Deeplearning4j 官方 网 站 : https://deeplearning4j.org/。 
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续 表 


主要 维护 人 员 (或 团体 ) 支持 语言 支持 系统 


Microsoft Cognitive | ， 
5 | 微软 研究 院 Python、 C++、 BrainScript | Linux、 Windows 
Toolkit (CNTK) 
、 C++ 、 Python 、 Julia 、 | Linux、Mac OS X、Windows、 
MXNet® 分 布 式 机 器 学 习 社区 (DMLC) 
Matlab、Go、R、Scala Android、iOS 


ET Din Mee 03X 


蒙特 利 尔 大 学 Linux、 Mac OS X、 Windows 


Ronan Collobert 、Soumith Chintala 
(Fackbook) Linux、 Mac OS X、 Windows、 
Clement Farabet (Twitter) > Android、iOS 

Koray Kavukcuoglu (Google) 


作者 认为 ， 不 同 的 深度 学 习 工 具 都 在 发 展 之 中 ， 比 较 当前 的 性 能 、 功 能 固然 是 选择 工 
具 的 一 种 方法 ， 但 更 加 重要 的 是 比较 不 同 工 具 的 发 展 趋势 。 深 度 学 习 本 身 就 是 一 个 处 于 蓬 
勃发 展 阶 段 的 领域 ， 所 以 对 深度 学 习 工 具 的 选择 ， 作 者 认为 应 该 更 加 看 重工 具 在 开源 社区 
的 活跃 程度 。 只 有 社区 活跃 度 更 高 的 工具 ， 才 有 可 能 跟 上 深度 学 习 本 身 的 发 展 速 度 ， 从 而 
在 未 来 不 会 面临 被 淘汰 的 风险 。 

1-11 对 比 了 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 的 一 些 指标 。 图 1-11 (a) 中 比 
较 了 不 同 工 具 在 GitHub 上 受 关注 的 程度 。 从 图 中 可 以 看 出 ， 无 论 是 在 获得 的 星 数 (star) 
还 是 在 仓库 被 复制 的 次 数 上 ，TensorFlow 都 要 远 远 超 过 其 他 的 深度 学 习 工 具 。 如 果 说 图 
1-11(a) 只 能 代表 不 同 深度 学 习 工 具 在 社区 受 关注 程度 ， 那 么 图 1-11(b) 对 比 了 不 同 深度 学 习 
工具 社区 参与 度 。 图 1-11(b) 中 展示 了 不 同 深度 学 习 工 具 在 GitHub 上 最 近 一 个 月 的 活跃 讨 
论 贴 和 代码 提交 请 求 数量 。 活 跃 讨 论 帖 越 多 ， 可 以 说 明 真 正 使 用 这 个 工具 的 人 也 就 越 多 ; 
提交 代码 请 求 数量 越 多 ， 可 以 说 明 参 与 到 开发 这 个 工具 的 人 也 就 越 多 。 从 图 1-11 (b) 中 可 
以 看 出 ， 无 论 从 哪个 指标 ，TensorFlow 都 要 远 远 超过 其 他 深度 学 习 工 具 。 大 量 的 活跃 开发 
者 再 加 上 谷歌 的 全 力 支持 ， 作 者 相信 TensorFlow 在 未 来 将 有 更 大 的 潜力 ， 这 也 是 本 书 将 
TensorFlow 作为 介绍 对 象 的 重要 依据 。 
















(QD Microsoft Cognitive Toolkit 官方 网 站 : https://www.microsoft.com/en-us/research/product/cognitive-toolkit/。 
@ MXNet 官方 网 站 : http://mxnet.io/。 

@@) PaddlePaddle 官方 网 站 : http://www.paddlepaddle.org/。 

由 Theano 官方 网 站 : http://deeplearning.net/software/theano/。 

@ Torch 官方 网 站 : http://torch.ch/。 


2 


wwaibbt.com DOODOODODOO 


TensorFlow: 实战 Google 深度 学 习 框 架 





476 


237 
154 
115 os ee 本 118 
83 9 7 
男 国 国有 国 国 二 二 mm- 国 -: 
Bi ED sos -一 


钙 唉 讨论 其 (issue) 话 路 代码 提交 请 求 《pull request} 








mcaffe wDeepleaningy uMicrowftCognitive Toolkit mMXNet “PaddePaddig wlensorFiow wTheano wTorch 


” (a) 不 同 深度 学 习 工 具 社 区 流行 度 指标 比较 ” 








TensorFlow 
36974 
TensorFlow 
16703 
13847 
8418 8534 
4532 se i 4977 ”5793 
| Il L i 
= IE En 
星 数 《Star ) 复制 色 友 《Fork ) 








mCaffe wDeeplearningd Microsoft Cognitive Toolkit mMXNet paddlepaddle mTensorflow mTheano mTorch 
(b) 同 深度 学 习 工具 社区 参与 度 指标 比较 ” 
1-11 不 同 深度 学 习 工具 在 GitHub 上 活跃 程度 对 比 图 





小 结 


本 章 对 深度 学 习 做 了 全 方位 的 介绍 。 首 先 1.1 节 介 绍 了 人 工 智能 、 机 器 学 习 以 及 深度 
学 习 的 概念 ， 并 解释 了 这 些 概 念 之 间 的 差异 。 人 工 智能 是 一 类 非常 广泛 的 问题 ， 它 则 在 通 
过 计算 机 实现 类 似 人 类 的 智能 。 机 器 学 习 是 解决 人 工 智能 问题 的 一 个 重要 方法 。 深 度 学 习 
则 是 机 器 学 习 的 一 个 分 支 ， 它 在 很 多 领域 突破 了 传统 机 器 学 习 的 瓶颈 ， 将 人 工 智 能 推 向 了 
一 个 新 的 高 潮 。 然 而 ， 这 样 一 个 突破 性 的 技术 并 不 是 最 近 几 年 凭空 创造 的 ， 它 所 基于 的 人 


Q@ 图 中 数据 获取 的 时 间 为 2016 年 11 月 17 日 。 
@ 图 中 数据 来 自 于 Github 上 2016 年 10 月 15 日 至 2016 年 11 月 15 日 的 统计 数据 。 
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工 神经 网 络 (artificial neural network，ANN) 技术 已 经 发 展 了 大 半 个 世纪 。 不 过 神经 网 络 
的 发 展 不 是 一 帆 风 顺 ，1.2 节 完 整 的 介绍 了 它 发 展 的 三 个 起 落 。 

受到 人 类 大 脑 结构 的 启发 ， 人 工 神经 网 络 的 计算 模型 于 1943 年 首次 提出 。 之 后 感知 机 
的 发 明 使 得 人 工 神 经 网 络 成 为 真正 可 以 从 数据 中 “学 习 ” 的 模型 。 但 由 于 感知 机 的 网 络 结 
构 过 于 简单 ， 导 致 无 法 解决 线性 不 可 分 问题 。 再 加 上 人 工 神经 网 络 所 需要 的 计算 量 太 大 ， 
当时 的 计算 机 无 法 满足 计算 需求 ， 使 得 人 工 神 经 网 络 的 研究 进入 了 第 一 个 寒冬 。 到 20 世纪 
80 年 代 ， 深 层 神 经 网 络 和 反 向 传播 算法 的 提出 很 好 地 解决 了 这 些 问题 ， 让 人 工 神经 网 络 进 
入 第 二 个 快速 发 展期 。 不 过 ， 在 这 一 时 期 中 ， 以 支持 向 量 机 为 主 的 传统 机 器 学 习 算法 也 在 
飞速 发 展 。 在 90 年 代 中 期 , 在 很 多 机 器 学 习 任务 上 ， 传统 机 器 学 习 算法 超越 了 人 工 神 经 网 
络 的 精确 度 ， 使 得 人 工 神经 网 络 领域 再 次 进入 寒冬 。 直 到 2012 年 前 后 ， 随 着 云 计算 和 海量 
数据 的 普及 ， 人 工 神经 网 络 以 “深度 学 习 ” 的 名 字 再 次 进入 大 家 的 视野 。 在 短 短 几 年 时 间 
内 ， 深 度 学 习 在 很 多 研究 领域 突破 了 传统 机 器 学 习 的 瓶颈 ， 推 动 了 入 工 智能 的 发 展 。 

人 类 大 脑 的 结构 分 为 了 很 多 神经 中 枢 ， 不 同 的 神经 中 枢 处 理 不 同类 型 的 输入 。 在 很 长 
一 段 时 间 ， 神 经 学 家 认为 人 类 大 脑 不 同 的 神经 中 枢 有 不 同 的 处 理 逻 辑 。 类 似 的 ， 机 器 学 习 
领域 也 一 直 分 为 计算 机 视觉 、 语 音 、 自 然 语 言 处 理 等 多 个 领域 ， 而 且 不 同 领域 使 用 的 算法 
也 有 很 大 区 别 。 然 而 ， 神 经 学 家 后 来 发 现 人 类 大 脑 不 同 神经 中 枢 的 学 习 算法 是 一 致 的 。 这 
使 得 人 们 看 到 了 深度 学 习 可 以 应 用 在 多 个 领域 的 理论 可 能 性 。 在 实践 中 ， 深 度 学 习 也 确实 
突破 了 很 多 领域 的 技术 瓶颈 。1.3 节 介 绍 了 深度 学 习 在 计算 机 视觉 、 语 音 、 自 然 语 言 处 理 、 
人 机 博 奔 等 多 个 领域 上 的 突破 性 进展 。 在 ImageNet 图 像 分 类 的 问题 上 ,深度 学 习 成 功 将 错 
误 率 从 26% 降 低 到 了 3.5%。 在 语音 识别 问题 上 ， 谷 歌 通过 深度 学 习 将 错误 率 降 低 了 25%， 
这 一 改进 幅度 是 过 去 十 年 的 总 和 。 在 自然 语言 处 理 上 ， 基 于 深度 学 习 的 机 器 翻译 、 搜 索 排 
序 、 情 感 分 析 、 自 然 语 言 建 模 等 应 用 都 已 经 在 国内 外 各 大 科技 公司 内 广泛 使 用 。 由 谷歌 
DeepMind 团队 开发 的 围 横 人 机 博弈 系统 AlphaGo 更 是 激 起 了 全 社会 对 深度 学 习 研 究 的 热 
情 。 如 今 ， 深 度 学 习 已 经 渗透 到 了 工业 界 和 学 术 界 的 每 一 个 领域 。 

要 利用 好 深度 学 习 所 带 来 的 福利 , 选择 一 款 好 的 深度 学 习 工 具 必 不 可 少 。1.4 节 介 绍 了 
谷歌 开源 的 深度 学 习 工 具 TensorFlow 的 特性 和 在 谷歌 内 部 的 应 用 ， 并 将 其 和 目前 其 他 主流 
的 开源 深度 学 习 工具 做 了 比较 。 在 谷歌 内 部 ，TensorFlow 已 经 被 成 功 应 用 到 语音 搜索 、 广 
告 \ 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产品 之 中 。 基 于 TensorFlow 开发 的 RankBrain 
排序 算法 在 谷歌 上 千 排 序 算法 中 排 在 第 三 重要 的 位 置 ， 由 此 可 见 TensorFlow 在 谷歌 的 重要 
地 人 位。 而且， 对 于 TensorFlow 的 支持 不 仅仅 来 自 谷 歌 。1.4 节 对 比 了 不 同 开源 深度 学 习 工 
具 的 社区 活跃 度 。 在 各 种 指标 上 ，TensorFlow 的 活跃 程度 都 要 远 远 超 过 其 他 工具 。 所 以 ， 
本 书 选择 TensorFlow 作为 介绍 的 工具 。 在 后 面 的 章节 中 将 具体 介绍 如 何 通 过 TensorFlow 实 
现 各 种 不 同 的 深度 学 习 算 法 ， 以 及 使 用 TensorFlow 时 的 一 些 最 佳 实践 。 
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本 章 将 介绍 如 何 安 装 TensorFlow 环境 以 及 在 安装 好 的 环境 中 运行 简单 的 TensorFlow 样 
例 程序 。 在 介绍 如 何 安装 TensorFlow 之 前 ，2.1 节 将 首先 介绍 TensorFlow 依赖 的 一 些 主要 
工具 包 。 然 后 2.2 节 将 介绍 TensorFlow 的 不 同安 装 方式 以 及 这 些 安装 方式 所 适用 的 不 同 的 
场景 。 最 后 2.3 节 将 给 出 一 个 用 TensorFlow 完成 向 量 加 法 的 样 例 。 通 过 这 个 样 例 程序 ， 读 
者 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 认识 。 


2.1 TensorFlow 的 主要 依赖 包 


本 节 将 介绍 TensorFlow 依赖 的 两 个 最 主要 的 工具 包 一 一 Protocol Buffer 和 Bazel。 虽 然 
TensorFlow 依赖 的 工具 包 不 仅 限于 此 节 中 列 出 来 的 两 个 , 但 Protocol Buffer 和 Bazel 是 作者 
认为 相对 比较 重要 的 ， 在 使 用 TensorFlow 的 过 程 中 很 有 可 能 会 接触 到 。 因 为 本 书 的 重点 是 
介绍 TensorFlow， 所 以 在 本 节 对 列 出 来 的 工具 包 只 进行 大 致 的 介绍 ， 主 要 目的 是 为 了 不 妨 
碍 读者 对 TensorFlow 的 使 用 和 理解 。 这 些 工具 的 详细 介绍 可 以 参考 脚注 。 在 以 下 的 每 个 小 节 
将 介绍 一 个 工具 包 的 主要 功能 并 给 出 简单 的 样 例 。 


2.1.1 Protocol Buffer 
Protocot Buffer” 是 谷歌 开发 的 处 理 结构 化 数据 的 工具 。 何 为 处 理 结构 化 数据 ? 这 里 我 


们 给 出 一 个 例子 。 假 设 要 记录 一 些 用 户 信息 , 每 个 用 户 的 信息 包括 用 户 的 名 字 、ID 和 E-mail 
地 址 。 那 么 一 个 用 户 的 信息 可 以 表示 为 以 下 的 形式 。 


@ https://developers.google.com/protocol-buffers/docs/overview 中 给 出 了 更 多 关于 Protocol Buffer 的 介绍 。 
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上 面 的 用 户 信息 就 是 一 个 结构 化 的 数据 。 注 意 本 节 中 介绍 的 结构 化 数据 和 大 数据 中 的 
结构 化 数据 的 概念 不 同 ， 本 节 中 介绍 的 结构 化 数据 指 的 是 拥有 多 种 属性 的 数据 。 比 如 上 述 
的 用 户 信息 中 包含 名 字 、ID 和 E-mail 地 址 3 种 不 同属 性 ， 那 么 它 就 是 一 个 结构 化 数据 。 当 
要 将 这 些 结构 化 的 用 户 信息 持久 化 或 者 进行 网 络 传输 时 ， 就 需要 先 将 它们 序列 化 。 所 谓 序 
列 化 ， 是 将 结构 化 的 数据 变 成 数据 流 的 格式 ， 简 单 地 说 就 是 变 为 一 个 字符 串 。 如 何 将 结构 
化 的 数据 序列 化 ， 并 从 序列 化 之 后 的 数据 流 中 还 原 出 原来 的 结构 化 数据 ， 统 称 为 处 理 结构 
化 数据 ， 这 就 是 Protocol Buffer 解决 的 主要 问题 。 

除 Protocol Buffer 之 外 ， XML 和 JSON 是 两 种 比较 常用 的 结构 化 数据 处 理工 具 。 比 如 
将 上 面 的 用 户 信息 使 用 XML 格式 表达 ， 那 么 数据 的 格式 为 : 





同样 的 数据 ， 使 用 JSON 的 格式 为 : 





Protocol Buffer 格式 的 数据 和 XML 或 者 JSON 格式 的 数据 有 比较 大 的 区 别 。 首 乱 3 
Protocol Buffer 序列 化 之 后 得 到 的 数据 不 是 可 读 的 字符 串 ， 而 是 二 进 制 流 。 其 次 ，XML 或 
JSON 格式 的 数据 信息 都 包含 在 了 序列 化 之 后 的 数据 中 , 不 需要 任何 其 他 信息 就 能 还 原 序 列 
化 之 后 的 数据 。 但 使 用 Protocol Buffer 时 需要 先 定 义 数据 的 格式 (schema) ©。 还 原 一 个 序 
列 化 之 后 的 数据 将 需要 使 用 到 这 个 定义 好 的 数据 格式 。 以 下 代码 给 出 了 上 述 用 户 信 息 样 例 
的 数据 格式 定义 文件 。 因 为 这 样 的 差别 ，Protocol Buffer 序列 化 出 来 的 数据 要 比 XML 格式 
的 数据 小 3 到 10 倍 ， 解 析 时 间 要 快 20 到 100 倍 。 


@ https://developers.google.com/protocol-buffers/docs/encoding 中 给 出 了 Protocol Buffer 的 具体 编码 方式 。 
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Protocol Buffer 定义 数据 格式 的 文件 一 般 保存 在 .proto 文件 中 。 每 一 个 message 代表 了 
一 类 结构 化 的 数据 ， 比 如 这 里 的 用 户 信息 。message 里 面 定义 了 每 一 个 属性 的 类 型 和 名 字 。 
Protocol Buffer 里 属性 的 类 型 可 以 是 像 布 尔 型 、 整 数 型 、 实 数 型 、 字 符 型 这 样 的 基本 类 型 ， 
也 可 以 是 另外 一 个 message。 这 样 大 大 增加 了 Protocol Buffer 的 灵活 性 。 在 message 中 ， 
Protocol Buffer 也 定义 了 一 个 属性 是 必须 的 (required) 还 是 可 选 的 (optional), 或 者 是 可 重 
复 的 (repeated)。 如 果 一 个 属性 是 必须 的 (required)， 那 么 所 有 这 个 message 的 实例 都 需要 
有 这 个 属性 ?， 如 果 一 个 属性 是 可 选 的 〈optional)， 那 么 这 个 属性 的 取 值 可 以 为 室 ; 如 果 一 
个 属性 是 可 重复 的 〈repeated)， 那 么 这 个 属性 的 取 值 可 以 是 一 个 列表 。 还 是 以 用 户 信息 为 
例 ， 所 有 用 户 都 需要 有 ID， 所 以 ID 这 个 属性 是 必须 的 ; 不 是 所 有 用 户 都 填写 了 姓名 ， 所 
以 姓名 这 个 属性 是 可 选 的 ; 一 个 用 户 可 能 有 多 个 E-mail 地 址 , 所 以 E-mail 地 址 是 可 重复 的 。 

Protocol Buffur 是 TensorFlow 系统 中 使 用 到 的 重要 工具 ，TensorFlow 中 的 数据 基本 都 
是 通过 Protocol Buffer 来 组 织 的 。 在 后 面 的 章节 中 将 看 到 Protocol Buffer 是 如 何 被 使 用 的 。 
分 布 式 TensorFlow 的 通信 协议 gRPC 也 是 以 Protocol Buffer 作为 基础 的 。 






2.1.2 Bazel 


Bazel2 是 从 谷歌 开源 的 自动 化 构建 工具 ， 谷 歌 内 部 绝 大 部 分 的 应 用 都 是 通过 它 来 编译 
的 。 相 比 传统 的 Makefile、Ant 或 者 Maven，Bazel 在 速度 、 可 伸缩 性 、 灵 活性 以 及 对 不 同 
程序 语言 和 平台 的 支持 上 都 要 更 加 出 色 。TensorFlow 本 身 以 及 谷歌 给 出 的 很 多 宫 方 样 例 都 
是 通过 Bazel 来 编译 的 。 这 一 小 节 将 简单 介绍 Bazel 是 怎样 工作 的 。 

项 目 空间 (workspace) 是 Bazel 的 一 个 基本 概念 %。 一 个 项 目 空间 可 以 简单 地 理解 为 一 
个 文件 夹 ， 在 这 个 文件 夹 中 包含 了 编译 一 个 软件 所 需要 的 源 代码 以 及 输出 编译 结果 的 软 连 
接 (symbolic link〉 地址 。 一 -个 项 目 空间 内 可 以 只 包含 一 个 应 用 (比如 TensorFlow)， 这 种 
情况 在 2.2.3 小 节 中 将 会 用 于 从 源码 安装 TensorFlow。 一 个 项 目 空间 也 可 以 包含 多 个 应 用 。 
一 个 项 目 空间 所 对 应 的 文件 夹 是 这 个 项 目的 根 目录 ， 在 这 个 根 目 录 中 需要 有 一 个 
WORKSPACE 文件 ， 此 文件 定义 了 对 外 部 资源 的 依赖 关系 。 空 文件 也 是 一 个 合法 的 


@ 在 最 新 的 Protocol Buffer3 中 已 经 不 再 支持 required 类 型 。 
@ http://www.bazel.io 中 给 出 了 关于 Bazel 的 更 多 介绍 。 
图 http:/www.bazel.io/docs/be/workspace.html 中 给 出 了 项 目 空间 的 完整 文档 和 开发 手册 。 
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WORKSPACE 文件 。 

在 一 个 项 目 空间 内 ，Bazel 通过 BUILD 文件 来 找到 需要 编译 的 目标 ”"。BUILD 文件 采 
用 一 种 类 似 于 Python 的 语法 来 指定 每 一 个 编译 目标 的 输入 、 输 出 以 及 编译 方式 .与 Makefile 
这 种 比较 开放 式 的 编译 工具 不 同 ，Bazel 的 编译 方式 是 事先 定义 好 的 。 因 为 TensorFlow 主 
要 使 用 Python 语言 ,所 以 这 里 都 以 编译 Python 程序 为 例 。Bazel 对 Python 支持 的 编译 方式 
只 有 三 种 : py_binary、py library 和 py_test”。 其 中 py_binary 将 Python 程序 编译 为 可 执行 
文件 ,py_test 编译 Python 测试 程序 ,py_library 将 Python 程序 编译 成 库 函 数 供 其 他 py_binary 
或 py_test 调用 。 下 面 给 出 了 一 个 简单 的 样 例 来 说 明 Bazel 是 如 何 工作 的 。 如 下 所 示 ， 在 样 
例 项 目 空间 中 有 4 个 文件 : WORKSPACE、BUILD、hello main.py 和 hello_lib.py。 





WORKSPACE 给 出 此 项 目的 外 部 依赖 关系 。 为 了 简单 起 见 ， 这 里 使 用 一 个 空 文件 ， 标 
明 这 个 项 目 没有 对 外 部 的 依赖 。hello_lib.py 完成 打印 “Hello World” 的 简单 功能 ， 它 的 代 
码 如 下 : 


hello_main.py 通过 调用 hello_lib.py 中 定义 的 函数 来 完成 输出 ， 它 的 代码 如 下 : 





在 BUILD 文件 中 定义 了 两 个 编译 目标 : 





@ http://www.bazel.io/docs/be/overview.html 中 给 出 了 BUILD 文件 的 完整 文档 和 开发 手册 。 
@ http://www.bazel.io/docs/test-encyclopedia.html 中 给 出 了 更 多 关于 测试 目标 的 介绍 。 
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从 这 个 样 例 中 可 以 看 出 ，BUILD 文件 是 由 一 系列 编译 目标 组 成 的 。 定 义 编 译 目 标的 先 
后 顺序 不 会 影响 编译 的 结果 。 在 每 一 个 编译 目标 的 第 一 行 要 指定 编译 方式 ， 在 这 个 样 例 中 
就 是 py_library 或 者 py_ binary。 在 每 一 个 编译 目标 中 的 主体 需要 给 出 编译 的 具体 信息 。 编 
译 的 具体 信息 是 通过 定义 name，srcs，deps 等 属性 完成 的 。name 是 一 个 编译 目标 的 名 字 ， 
这 个 名 字 将 被 用 来 指 代 这 一 条 编译 目标 。srcs 给 出 了 编译 所 需要 的 源 代码 ， 这 一 项 可 以 是 
一 个 列表 。deps 给 出 了 编译 所 需要 的 依赖 关系 ， 比 如 样 例 中 hello_main.py 需要 调用 
hello lib.py 中 的 函数 ， 所 以 hello_main 的 编译 目标 中 将 hello_lib 作为 依赖 关系 。 在 这 个 项 
目 空间 中 运行 编译 操作 bazel build :hello_main 将 得 到 类 似 以 下 的 结果 : 


Irwxrwxrwx 1root root 74 bazel-bazel -> ~/.cachefbazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/ 





-rw-rw-r 一 1 root root 208 BUILD 
-rw-rw-f 一 1 root root 48 hello lib.py 
-fwW-rw-f 一 1 root root 47 hello_main.py 
-AW-TW-1— 1root root 0WORKSPACE 


从 上 面 的 结果 可 以 看 到 ,在 原来 4 个 文件 的 基础 上 ，Bazel 生成 了 其 他 一 些 文件 夹 。 这 
些 新 生成 的 文件 夹 就 是 编译 的 结果 ， 它 们 都 是 通过 软 连 接 的 形式 放 在 当前 的 项 目 空间 里 。 
实际 的 编译 结果 文件 都 会 保存 到 ~/.cache/bazel 目录 下 ,这 是 可 以 通过 output user root 或 者 
output_base 参数 来 改变 的 "。 在 这 些 编译 出 来 的 结果 当中 , bazel-bin 目录 下 存放 了 编译 产生 
的 二 进 制 文件 以 及 运行 该 二 进 制 文件 所 需要 的 所 有 依赖 关系 。 在 当前 目录 下 运行 
bazel-bin/hello_main 就 会 在 屏幕 输出 “Hello World”。 其 他 编译 结果 在 本 书 中 使 用 较 少 ， 这 
里 就 不 再 袭 述 。 


2.2 TensorFlow 安装 


TensorFlow 提供 了 多 种 不 同 的 安装 方式 ， 本 小 节 将 逐一 介绍 通过 Docker 安装 、 通 过 
pip 安装 以 及 从 源码 安装 。 


@ http://www.bazel.io/docs/output_directories.html 中 详细 介绍 了 编译 结果 的 目录 结构 。 
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2.2.1 使 用 Docker 安装 


Docker 是 新 一 代 的 虚拟 化 技术 ， 它 可 以 将 TensorFlow 以 及 TensorFlow 的 所 有 依赖 关 
系统 一 封装 到 Docker 镜像 当中 ， 从 而 大 大 简化 了 安装 过 程 。 通 过 Docker 运行 应 用 时 需要 
先 安装 Docker。Docker 支持 大 部 分 的 操作 系统 ， 下 面 列 出 了 最 主要 的 一 些 。 

。 Linux 系统 : Ubuntu、CentOS、Debian、 红 帽 企 业 版 (Red Hat Enterprise Linux) 等 。 

e Mac OSX : 10.10.3 Yosemite 或 以 上 。 

e Windows : Windows 7 或 以 上 。 

如 何 安 装 / 使 用 Docker 不 是 本 书 重 点 ， 这 里 就 不 再 介绍 在 不 同 操作 系统 下 如 何 安 装 
Docker”。 当 Docker 安装 完成 后 ， 只 需要 使 用 一 个 打包 好 的 Docker 镜像 。 对 于 TensorFlow 
发 布 的 每 一 个 版 本 ， 谷 歌 都 提供 了 4 个 官方 镜像 。 表 2-1 给 出 了 这 些 镜像 的 名 称 以 及 镜像 
中 的 包含 的 内 容 。 


表 2-1 TensorFlow 官方 Docker 镜像 列表 
aa | 
J 
a 

镜像 的 标签 (冒号 后 面 的 部 分 ) 给 出 了 TensorFlow 的 版 本 。 本 书 的 绝 大 部 分 代码 将 统 
一 使 用 版 本 0.9.08。 才 云 科 技 也 提供 了 TensorFlow 的 相关 镜像 cargo.caicloud.io/tensorflow/ 
tensorflow:0.12.08。 与 官方 镜像 类 似 ，0.12.0 表示 TensorFlow 版 本 。 如 果 TensorFlow 推出 
更 新 的 版 本 ， 此 版 本 号 可 以 被 替换 为 更 新 的 版 本 号 。 在 官方 镜像 的 基础 上 ， 才 云 科技 提供 
的 镜像 进一步 整合 了 其 他 机 器 学 习 工 具 包 以 及 TensorFlow 可 视 化 工具 TensorBoard”， 使 用 
起 来 可 以 更 加 方便 。 才 云 科 技 即将 上 线 TensorFlow 的 公有 云 平台 caicloud.io， 在 此 平台 上 
可 以 直接 运行 TensorFlow 程序 ， 从 而 省 去 了 安装 的 过 程 。 






GD https://www.docker.com/what-docker 中 详细 介绍 了 Docker 的 基本 概念 。 

@ https://docs.docker.com/engine/installation 中 介绍 了 在 不 同 操作 系统 下 如 何 安装 Docker。 

@ 因为 0.9.0 对 循环 神经 网 络 支持 不 是 特别 友好 ， 所 以 第 8 章 部 分 代码 使 用 了 版 本 0.10.0。 在 本 书 中 ， 使 
用 了 其 他 版 本 的 样 例 代 码 都 给 出 了 明确 的 注释 。 

@ 才 云 科技 只 提供 0.12.0 及 以 上 版 本 的 TensorFlow 镜像 。 

@@ 第 9 章 将 更 加 详细 地 介绍 如 何 使 用 TensorFlow 可 视 化 工具 TensorBoard。 
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当 Docker 安装 完成 之 后 ， 可 以 通过 以 下 命令 来 启动 一 个 TensorFlow 容器 "。 在 第 一 次 
运行 的 时 候 ，Docker 会 自动 下 载 镜像 。 







Ne 





在 这 个 命令 中 , -p 8888:8888 将 容器 内 运行 的 Jupyter 服务 映射 到 本 地 机 器 , 这 样 在 浏 
览 器 中 打开 localhost:8888 就 能 看 到 类 似 下 图 的 Jupyter 界面 。 在 此 镜像 中 运行 的 Jupyter 是 
一 个 网 页 版 的 代码 编辑 器 ， 它 支持 创建 、 上 传 、 修 改 和 运行 Python 程序 。 通 过 Jupyter， 才 
云 科技 提供 了 本 书 所 有 的 样 例 程序 ， 如 图 2-1 所 示 。 


志 Jupyter 人 > oe 





[EN i 人 有 
Setect ems to perform actions on them. | Upioad || New = ||2| 
| 避 “~ #1/ Deep Learning vith TensorFiow ! 0.12.0 

ee A 
| 是 户 chepter03 
«Denepen4 


四 口 chapter05 
日 吕 chapter06 


四 串 chapter07 
中 口 chapler0e 
BO chapter09 
| BD cmaporo 





图 2-1 才 云 科技 提供 的 TensorFlow 镜像 Jupyter 页 面 示意 图 


-p 6006:6006 将 容器 内 运行 的 TensorFlow 可 视 化 工具 TensorBoard 映射 到 本 地 机 器 , 通 
过 在 浏览 器 中 打开 localhost:6006 就 可 以 将 TensorFlow 在 训练 时 的 状态 、 图 片 数 据 以 及 神经 
网 络 结构 等 信息 全 部 展示 出 来 。 此 镜像 会 将 所 有 输出 到 /log 目录 底下 的 日 志 全 部 可 视 化 。 
具体 如 何 使 用 TensorBoard 将 在 第 9 章 中 详细 介绍 。 

虽然 支持 GPU 的 Docker 镜像 ， 但 是 要 运行 这 些 镜像 需要 安装 最 新 的 Nvidia 驱动 以 及 
nvidia-docker”。 在 安装 完成 nvidia-docker 之 后 ， 可 以 通过 以 下 的 命令 运行 支持 GPU 的 
TensorFlow 镜像 。 在 镜像 启动 之 后 可 以 通过 和 上 面 类 似 的 方式 使 用 TensorFlow。 










@ https://docs.docker.com/engine/reference/commandline/cli 中 给 出 了 Docker 命令 的 文档 。 
@ http://jupyter.org/ 中 给 出 了 对 Jupyter 更 加 详细 的 介绍 。 
图 https://github.com/NVIDIA/nvidia-docker 中 介绍 了 nvidia-docker 的 基本 原理 和 安装 说 明 。 
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2.2.2 ”使 用 pip 安装 


pip 是 一 个 安装 、 管 理 Python 软件 包 的 工具 2?， 通 过 pip 可 以 安装 已 经 打包 好 的 
TensorFlow 以 及 TensorFlow 所 需要 的 依赖 关系 。 目 前 TensorFlow 只 提供 了 部 分 操作 系统 下 
打包 好 的 安装 文件 ， 在 其 他 操作 系统 下 安装 或 者 需要 安装 定制 化 代码 的 TensorFlow 请 参考 
2.2.3 小 节 。 通 过 pip 安装 可 以 分 为 以 下 三 步 。 


第 一 步 : 安装 pip 





第 二 步 : 找到 合适 的 安装 包 URL 
仅 支 持 CPU 的 TensorFlow 安装 包 有 : 





目前 只 有 在 安装 了 CUDAtoolkit 7.5 和 CuDNN v4 的 64 位 Ubuntu 下 可 以 通过 pip 安装 


@ https://pip.pypa.io 中 给 出 pip 的 文档 。 
31 


wwaibbt.com DODODOOODODOD 


TensorFlow: 实战 Google 深度 学 习 框 架 


支持 GPU 的 TensorFlow， 对 于 其 他 系统 或 者 其 他 CUDA/CuDNN 版 本 的 用 户 ， 则 需要 从 源 
码 进行 安装 来 支持 GPU 使 用 。 如 何 从 源码 进行 安装 将 在 2.2.3 小 节 中 详 述 。 下 面 给 出 了 支 
持 GPU 的 TensorFlow pip 安装 包 的 URL: 





第 三 步 : 通过 pip 安装 TensorFlow 





通过 这 三 步 ，TensorFlow 环境 就 安装 完成 了 。 


2.2.3 ”从 源 代码 编译 安装 


从 源 代码 安装 TensorFlow 的 过 程 主要 就 是 将 TensorFlow 源 代码 编译 成 pip 安装 包 的 过 
程 。 将 TensorFlow 的 源 代码 编译 为 pip 所 使 用 的 wheel 文件 之 后 , 通过 2.2.2 小 节 中 介绍 的 
pip install 的 方法 就 可 以 完成 安装 。 在 编译 TensorFlow 源 代码 之 前 需要 先 安装 TensorFlow 
所 依赖 的 其 他 工具 包 。 不 同 操作 系统 下 需要 安装 的 工具 包 略 微 有 一 些 差 别 ， 而 且 在 不 同 操 
作 系 统 下 安装 这 些 工具 包 的 方法 也 不 大 一 样 ， 这 一 小 节 将 以 Ubuntu 14.04 和 Mac OS X 为 
例 来 介绍 如 何 安装 TensorFlow 依赖 的 工具 包 ”。 


在 Ubuntu 14.04 下 安装 依赖 的 工具 包 
首先 需要 安装 2.1.2 小 节 中 介绍 的 编译 工具 Bazel。 安 装 Bazel， 首 先 要 安装 JDK8。 以 


@ 其 他 版 本 的 Linux 可 以 参考 Ubuntu 14.04 下 的 安装 方法 。 目前 TensorFlow 没有 比较 好 的 支持 在 
Windows 下 从 源码 安装 ，Windows 用 户 可 以 通过 2.2.1 节 中 介绍 的 Docker 来 使 用 TensorFlow。 
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下 代码 给 出 了 安装 JDK8 的 方法 。 


然后 安装 Bazel 的 其 他 依赖 的 工具 包 : 








接着 在 Bazel 的 GitHub 发 布 页 面 下 载 安装 包 (https://github.com/bazelbuild/bazel/releas 
es/tag/0.3.1)。 其 中 0.3.1 为 Bazel 的 版 本 号 。 如 果 有 更 新 的 版 本 ， 可 以 相应 的 替换 上 面 连接 
中 的 版 本 号 。 在 这 个 页 面 中 下 载 安装 包 bazel-0.3.1-jdk7-installer-linux-x86 64.sh， 然 后 就 可 
以 通过 这 个 安装 包 来 安装 Bazel。 以 下 代码 实现 了 Bazel 的 安装 过 程 。 


Bazel 安装 完成 后 还 需要 通过 以 下 代码 来 安装 TensorFlow 的 依赖 的 其 他 工具 包 。 


如 果 要 支持 GPU， 那 么 还 需要 安装 Nvidia 的 Cuda Toolkit〈 版 本 需要 大 于 或 等 于 7.0) 
和 cuDNN (版 本 需要 大 于 或 等 于 v2)。 而 且 TensorFlow 只 支持 Nvidia 计算 能 力 (compute 
capability) 大 于 3.0 的 GPU。 比 如 Nvidia Titan、Nvidia Titan X、Nvidia K20、Nvidia K40 
等 都 满足 要 求 ”。 

Cuda Toolkit 的 安装 包 以 及 安装 方法 可 登录 https://developer.nvidia.com/cuda-downloads 
获得 。 在 根据 引导 填写 完 操作 系统 相关 参数 之 后 ， 该 网 站 将 提供 Cuda 7.5 的 安装 包 及 详细 
安装 方法 。 登 录 https://developer.nvidia.com/cudnn 可 下 载 cuDNN 的 安装 包 。 在 下 载 之 前 需 
要 先 注 册 ， 但 注册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 cuDNN v4 Library for Linux， 其 中 
v4 可 以 替换 成 更 新 的 版 本 。 下 载 完成 后 ， 需 要 通过 以 下 命令 把 下 载 下 来 的 安装 包 复制 到 
Cuda 的 目录 〈 这 里 假设 是 srlocalcuda ): 








@ https://developer.nvidia.com/cuda-gpus 中 列 出 了 所 有 GPU 的 计算 能 力 。 
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在 Mac OS X 下 安装 依赖 工具 包 

Homebrew 是 Mac OS X 下 一 个 软件 安装 工具 ?， 通 过 这 个 工具 可 以 很 方便 地 安装 比如 
Bazel，SWIG 等 TensorFlow 的 依赖 工具 。Homebrew 自己 的 安装 过 程 也 很 简单 ， 以 下 代码 
给 出 了 它 的 安装 方法 : 






安装 完 Homebrew 后 就 可 以 通过 brew 来 安装 Bazel 和 SWIG: 







然后 可 以 通过 easy_install 来 安装 Python 相关 的 依赖 工具 : 


如 果 需 要 支持 GPU, 在 安装 Cuda Toolkit 和 cuDNN 之 前 ,还 需要 通过 Homebrew 安装 
GNU coreutils: 





和 Ubuntu 14.04 类 似 , https://developer.nvidia.com/cuda-downloads 网 站 提供 了 安装 最 新 
Cuda Toolkit 的 安装 包 与 安装 方法 .但 在 Mac OS X 下 可 以 通过 Homebrew Cask 来 直接 安装 : 


Cuda Toolkit 安装 完成 之 后 需要 将 环境 变量 加 入 到 ~/.bash_profile 文件 中 : 


https://developer.nvidia.com/cudnn 网 站 提供 了 cuDNN 的 安装 包 。 在 下 载 之 前 这 个 网 站 
需要 先 注册 ， 注 册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 cuDNN v4 Library for OS XxX， 其 中 
v4 可 以 替换 成 更 新 的 版 本 。 下 载 完成 后 需要 将 文件 解压 并 放 到 Cuda Toolkit 的 目录 下 。 以 


@ http://brew.sh 中 介绍 Homebrew 的 功能 。 
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下 代码 完成 了 这 个 过 程 : 


配置 TensorFlow 编译 环境 


在 所 有 依赖 的 工具 包 都 安装 完成 之 后 就 可 以 开始 从 源码 来 安装 TensorFlow 了 。 无 论 在 
哪个 操作 系统 下 ， 要 从 源 代码 开始 安装 ， 首 先 需 要 下 载 源 代码 。 通 过 以 下 命令 可 以 下 载 最 
新 的 TensorFlow 源 代码 : 


$ git clone https://github.com/tensorflow/tensorflow 
使 用 以 上 命令 将 下 载 TensorFlow 最 新 的 代码 。 如 果 需 要 下 载 之 前 发 布 的 版 本 ， 可 以 在 
上 述 命令 中 加 入 -b <branchname> 参 数 。 其 中 <branchname> 可 以 是 r0.7、r0.8、r0.9 等 。 如 果 
安装 r0.8 或 者 更 老 的 版 本 ， 还 需要 在 上 述 命令 中 加 入 --recurse-submodules 参数 来 拉 取 
TensorFlow 依赖 的 其 他 工具 ,源码 下 载 完 成 之 后 , 需要 运行 configure 脚本 来 配置 环境 信息 : 
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# 配置 GPU 计算 能 力 。 

Please specify a list of comma-separated Cuda compute capabilities you want 
to build with， 

You can find the compute capability of your device at: https://developer. 
nvidia.com/cuda-gpus. 

Please note that each additional compute capability significantly increases 
your build time and binary size. 


Setting up Cuda include 
Setting up Cuda 1lib 
Setting up Cuda bin 
Setting up Cuda nvvm 
Setting ap CUPTI include 
Setting up CUPTI lib64 
Configuration finished 


当 环 境 配置 完成 之 后 通过 Bazel 来 编译 pip 的 安装 包 ， 然 后 通过 pip 安装 : 


$ bazel build -ce opt --config=cuda \ 
//tensorflow/tools/pip package:build pip package 
$ bazel-bin/tensorflow/tools/pip package/build pip package \ 
/tmp/tensorflow pkg 
$ sudo pip install /tmp/tensorflow pkg/tensorflow-0.9.0-py2-none-any.whl 
第 一 个 命令 中 --config=cuda 参数 为 对 GPU 的 支持 。 如 果 不 需 要 文 持 GPU， 就 不 需要 
这 个 参数 了 。 最 后 一 行 中 wheel 安装 包 的 名 字 (tensorflow-0.9.0-py2-none-any.whl) 和 系统 
环境 有 关 ， 使 用 pip 安装 之 前 可 以 先 通 过 ls 命令 来 确认 安装 包 的 名 字 。 


2.3 TensorFlow 测试 样 例 


通过 2.2 节 中 介绍 的 方法 安装 好 TensorFlow 后 ， 在 这 一 节 中 将 给 出 一 个 简单 的 
TensorFlow 样 例 程序 来 实现 两 个 向 量 求 和 。TensorFlow 支持 C、C++H 和 Python 三 种 语言 ， 
但 是 它 对 Python 的 支持 是 最 全 面 的 ， 所 以 本 书 中 所 有 的 样 例 都 会 使 用 Python 语言 。 通 过 
本 节 给 出 来 的 简 es 读者 可 以 测试 安装 好 的 TensorFlow 环境 , 同时 也 可 以 对 TensorFlow 
有 一 个 直观 的 认识 。 这 一 节 将 直接 使 用 Python 自 带 的 交互 界面 来 演示 这 个 简单 样 例 : 
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在 进入 Python 交互 界面 之 后 ， 先 通过 import 操作 加 载 TensorFlow: 





>>> import tensorflow as tf 


上 图 显示 TensorFlow 已经 成 功 加 载 了 。Python 可 以 通过 重 命名 来 使 引用 更 加 方便 ， 在 
本 书 中 都 会 将 “tensorflow” 简 写 为 “tf”。 然 后 定义 两 个 辣 量 ，a 和 b: 


tf.constant([1.8,2.8], 





tf.constant([2.8,3 


在 这 里 将 a 和 b 定义 为 了 两 个 常量 (tf.constant)， 一 个 为 [1.0,2.0]， 男 一 个 为 [2.0,3.0]。 
在 两 个 加 数 定 义 好 之 后 ， 将 这 两 个 向 量 加 起 来 : 


熟悉 NumPy 的 读者 会 发 现 ， 在 TensorFlow 之 中 ， 向 量 的 加 法 也 是 可 以 直接 通过 加 号 
(+) 来 完成 的 。 最 后 输出 相 加 得 到 的 结果 : 


>>> sess 
>>> sess.run(result) 





array([ 3.， 5.]，dtype=float32) 


要 输出 相 加 得 到 的 结果 , 不 能 简单 地 直接 输出 result, 而 需要 先生 成 一 个 会 话 (session)， 
并 通过 一 个 这 个 会 话 (session) 来 计算 结果 。 到 此 ， 就 实现 了 一 个 非常 简单 的 TensorFlow 
模型 。 第 3 章 将 更 加 深入 地 介绍 TensorFlow 的 基 本 概念 , 并 将 TensorFlow 的 计算 模型 和 神 
经 网 络 模型 结合 起 来 


小 结 


在 本 章 中 首先 介绍 了 TensorFlow 主要 依赖 的 两 个 工具 Protocol Buffer 和 Bazel。 
Protocol Buffer 是 一 个 结构 数据 序列 化 的 工具 ， 在 TensorFlow 中 大 部 分 数据 结构 都 是 通过 
Protocol Buffer 的 形式 存储 的 。Bazel 是 一 个 谷歌 开源 的 编译 工具 ， 在 2.2 节 中 讲解 了 如 何 
通过 Bazel 编译 TensorFlow 的 源 代码 。 谷 歌 官方 给 出 的 大 部 分 样 例 程序 也 是 通过 Bazel 编 
译 的 。 

在 介绍 完 TensorFlow 所 依赖 的 工具 之 后 ，2.2 节 讲 解 了 TensorFlow 的 不 同安 装 方式 ， 
及 不 同安 装 方式 适用 的 不 同 场景 。2.2.1 小 节 中 介绍 的 Docker 是 可 移植 性 最 强 的 一 种 安 

点 方式 ， 它 支持 大 部 分 的 操作 系统 〈 比 如 Windows，Linux 和 Mac OS)。 但 Docker 目前 对 








Q@ NumPy 是 一 个 科学 计算 的 Python 工具 包 ，http://www.numpy.org 中 给 出 了 更 多 关于 NumPy 的 介绍 
》 》 p 
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GPU 的 支持 有 限 ， 而 且 Docker 对 本 地 开发 环境 的 支持 也 不 够 友好 。 在 本 地 最 方便 的 安装 
方式 是 使 用 pip。 使 用 pip 可 以 将 已 经 打包 好 的 安装 包 安 装 到 本 地 。 谷 歌 官方 提供 了 不 同 版 
本 TensorFlow 的 pip 安装 包 。 这 种 方式 比较 适合 在 本 地 开发 TensorFlow 的 应 用 程序 ， 但 无 
法 修改 TensorFlow 本 身 。 最 后 一 种 方法 就 是 从 源码 安装 ， 这 种 方式 最 灵活 ， 但 比较 烦琐 。 
- 般 只 有 需要 修改 TensorFlow 本 身 或 者 需要 支持 比较 特殊 的 GPU 时 才 会 被 用 到 。 

在 本 音 的 最 后 一 节 中 给 出 了 一 个 非常 简短 的 TensorFlow 测试 样 例 。 这 个 样 例 程序 完成 
了 两 个 向 量 加 法 的 功能 。 通 过 这 个 样 例 可 以 测试 安装 好 的 TensorFlow 环境 ， 同 时 也 可 以 对 
TensorFlow 有 一 个 直观 的 感受 。 在 第 3 章 中 将 更 加 详细 地 介绍 TensorFlow 中 的 基本 概念 ， 
并 讲解 如 何 通过 TensorFlow 来 实现 一 个 简单 神经 网 络 的 训练 过 程 。 
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在 第 2 章 中 介绍 了 如 何 安装 TensorFlow， 并 且 在 安装 好 的 TensorFlow 中 运行 了 一 个 简 
单 的 向 量 相 加 的 样 例 。 本 章 将 详细 地 介绍 TensorFlow 基本 概念 。 在 本 章 的 前 3 节 中 ， 将 分 
别 介绍 TensorFlow 的 计算 模型 、 数 据 模型 和 运行 模型 。 通 过 这 三 个 角度 对 TensorFlow 的 介 
绍 ， 读 者 可 以 对 TensorFlow 的 工作 原理 有 一 个 大 致 的 了 解 。 在 本 章 的 最 后 一 节 中 ， 将 简单 
介绍 神经 网 络 的 主要 计算 流程 ， 并 介绍 如 何 通过 TensorFlow 实现 这 些 计 算 。 


3.1 TensorFlow 计算 模型 一 一 计算 图 


计算 图 是 TensorFlow 中 最 基本 的 一 个 概念 ，TensorFlow 中 的 所 有 计算 都 会 被 转化 为 计 
算 图 上 的 节点 。3.1.1 小 节 将 详细 介绍 TensorFlow 中 计算 图 的 基本 概念 ， 然 后 在 3.1.2 小 节 
中 将 通过 一 些 简单 的 样 例 程 序 说 明 TensorFlow 计算 图 的 使 用 方法 。 


3.1.1 计算 图 的 概念 


TensorFlow 的 名 字 中 已 经 说 明了 它 最 重要 的 两 个 概念 一 一 Tensor 和 Flow。Tensor 就 是 
张 量 。 张 量 这 个 概念 在 数学 或 者 物理 学 中 可 以 有 不 同 的 解释 ， 但 在 本 书 中 并 不 强调 它 本 身 
的 含义 。 在 TensorFlow 中 ， 张 量 可 以 被 简单 地 理解 为 多 维 数组 ， 在 3.2 节 中 将 对 张 量 做 更 
加 详细 的 介绍 。 如 果 说 TensorFlow 的 第 一 个 词 Tensor 表明 了 它 的 数据 结构 ， 那 么 Flow 则 
体现 了 它 的 计算 模型 。Flow 翻译 成 中 文 就 是 “ 流 ”， 它 直观 地 表达 了 张 量 之 间 通 过 计算 相 
互 转化 的 过 程 。TensorFlow 是 一 个 通过 计算 图 的 形式 来 表述 计算 的 编程 系统 。TensorFlow 
中 的 每 一 个 计算 都 是 计算 图 上 的 一 个 节点 ， 而 节点 之 间 的 边 描述 了 计算 之 间 的 依赖 关系 。 
图 3-1 展示 了 通过 TensorBoard 画 出 来 的 第 2 章 中 两 个 向 量 相 加 样 例 的 计算 图 。 


Q@ TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 第 9 章 将 详细 介绍 这 个 工具 。 
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add 
Oe 
b 
图 3-1 通过 TensorBoard 可 视 化 向 量 相 加 的 计算 图 


图 3-1 中 的 每 一 个 节点 都 是 一 个 运算 ， 而 每 一 条 边 代 表 了 计算 之 间 的 依赖 关系 。 如 果 
一 个 运算 的 输入 依赖 于 另 一 个 运算 的 输出 ， 那 么 这 两 个 运算 有 依赖 关系 。 在 图 3-1 中 ，a 
和 bb 这 两 个 常量 不 依赖 任何 其 他 计算 ”。 而 add 计算 则 依赖 读 取 两 个 常量 的 取 值 。 于 是 在 图 
3-1 中 可 以 看 到 有 一 条 从 a 到 add 的 边 和 一 条 从 b 到 add 的 边 。 在 图 3-1 中 ,没有 任何 计算 
依赖 add 的 结果 ， 于 是 代表 加 法 的 节点 add 没有 任何 指向 其 他 节点 的 边 。 所 有 TensorFlow 
的 程序 都 可 以 通过 类 似 图 3-1 所 示 的 计算 图 的 形式 来 表示 ， 这 就 是 TensorFlow 的 基本 计算 
模型 。 


3.1.2 ”计算 图 的 使 用 


TensorFlow 程序 一 般 可 以 分 为 两 个 阶段 。 在 第 一 个 阶段 需要 定义 计算 图 中 所 有 的 计算 。 
比如 在 第 2 章 的 向 量 加 法 样 例 程序 中 首先 定义 了 两 个 输入 ， 然 后 定义 了 一 个 计算 来 得 到 它 
们 的 和 。 第 二 个 阶段 为 执行 计算 ， 这 个 阶段 将 在 3.3 节 中 介绍 。 以 下 代码 给 出 了 计算 定义 
阶段 的 样 例 。 

mp 

a = tf.constant(tiQr R220 name a ; Wr pr 

Ws Et onatanttt od "Sp elo 

result = ‘a+ 

在 Python 中 一 般 会 采用 “import tensorflow as tf” 的 形式 来 载 入 TensorFlow， 这 样 可 以 
使 用 “tf” 来 代替 “tensorflow” 作 为 模块 名 称 ， 使 得 整个 程序 更 加 简洁 。 这 是 TensorFlow 
中 非常 常用 的 技巧 ， 在 本 书后 面 的 章节 中 将 会 全 部 采用 这 种 加 载 方式 。 在 这 个 过 程 中 ， 
TensorFlow 会 自动 将 定义 的 计算 转化 为 计算 图 上 的 节点 。 在 TensorFlow 程序 中 ， 系 统 会 自 
动 维护 一 个 默认 的 计算 图 , 通过 tf.get_default graph 函数 可 以 获取 当前 默认 的 计算 图 。 以 下 
全 全 六 和 生生 0 


因为 没 有 特意 指定 ， 3» 所 以 这 - - 个 前 应 该 等 于 
SA bs eb Mr es 
~ .0 p- ' 4 y 








Q@ 为 了 建 模 的 方便 ，TensorFlow 会 将 常量 转化 成 一 种 永远 输出 固定 值 的 运算 。 
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除了 使 用 默认 的 计算 图 ，TensorFlow 支持 通过 给 Graph 函数 来 生成 新 的 计算 图 。 不 同 计 
算 图 上 的 张 量 和 运算 都 不 会 共享 。 以 下 代码 示意 了 如 何在 不 同 计算 图 上 定义 和 使 用 变量 ”。 






上 面 的 代码 产生 了 两 个 计算 图 ， 每 个 计算 图 中 定义 了 一 个 名 字 为 “v” 的 变量 。 在 计算 
图 gl 中 , 将 v 初始 化 为 0; 在 计算 图 g2 中 ,将 v 初始 化 为 1。 可 以 看 到 当 运 行 不 同 计算 图 
时 ， 变 量 v 的 值 也 是 不 一 样 的 。TensorFlow 中 的 计算 图 不 仅仅 可 以 用 来 隔离 张 量 和 计算 ， 

它 还 提供 了 管理 张 量 和 计算 的 机 制 。 计 算 图 可 以 通过 妮 Graph.device 函数 来 指定 运行 计算 
的 设备 。 这 为 TensorFlow 使 用 GPU 提供 了 机 制 。 下 面 的 程序 可 以 将 加 法 计算 跑 在 GPU 上。 






@ 第 4 章 将 更 加 详细 地 介绍 TensorFlow 中 变量 的 概念 。 
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具体 使 用 GPU 的 方法 将 在 第 10 章 详 述 。 有 效 地 整理 TensorFlow 程序 中 的 资源 也 是 计 
算 图 的 一 个 重要 功能 。 在 一 个 计算 图 中 ， 可 以 通过 集合 (collection〉 来 管理 不 同类 别 的 资 
源 。 比 如 通过 tfadd to_collection 函数 可 以 将 资源 加 入 一 个 或 多 个 集合 中 ， 然 后 通过 
tf.get_collection 获取 一 个 集合 里 面 的 所 有 资源 。 这 里 的 资源 可 以 是 张 量 、 变 量 或 者 运行 
TensorFlow 程度 所 需要 的 队列 资源 ， 等 等 。 为 了 方便 使 用 ，TensorFlow 也 自动 管理 了 一 些 
最 常用 的 集合 ， 表 3-1 总 结 了 最 常用 的 几 个 自动 维护 的 集合 。 


表 3-1 TensorFlow 中 维护 的 集合 列表 

















| 于 4 称 [| 条 内 容 | 全 场景 
ttGraphKeys.TRAINABLE VARIABLES 可 学 习 的 变量 (一般 指 神经 网 络 中 
i Ti 

外 多 入 的 QueueRunner 
所 有 计算 了 滑动 下 的 全 的 变 


3.2 TensorFlow 数据 模型 一 一 张 量 


3.1 节 介 绍 了 使 用 计算 图 的 模型 来 描述 TensorFlow 中 的 计算 。 这 一 个 节 将 介绍 
TensorFlow 中 另外 一 个 基础 概念 一 一 张 量 。 张 量 是 TensorFlow 管理 数据 的 形式 ， 在 3.2.1 
小 节 中 将 介绍 张 量 的 一 些 基 本 属性 。 然 后 在 3.2.2 小 节 中 将 介绍 如 何 通 过 张 量 来 保存 和 获取 
TensorFlow 计算 的 结果 。 


3.2.1 张 量 的 概念 


从 TensorFlow 的 名 字 就 可 以 看 出 张 量 , (tensor) 是 一 个 很 重要 的 概念 。 在 TensorFlow 
程序 中 ， 所 有 的 数据 都 通过 张 量 的 形式 来 表示 。 从 功能 的 角度 上 看 ， 张 量 可 以 被 简单 理解 
为 多 维 数组 。 其 中 零 阶 张 量 表示 标量 (scalar), 也 就 是 一 个 数 ”; 第 一 阶 张 量 为 向 量 (vector)， 
也 就 是 一 个 一 维 数组 ; 第 n 阶 张 量 可 以 理解 为 一 个 n 维 数组 。 但 张 量 在 TensorFlow 中 的 实 
现 并 不 是 直接 采用 数组 的 形式 ， 它 只 是 对 TensorFlow 中 运算 结果 的 引用 。 在 张 量 中 并 没有 
真正 保存 数字 ， 它 保存 的 是 如 何 得 到 这 些 数 字 的 计算 过 程 。 还 是 以 向 量 加 法 为 例 ， 当 运行 


外 张 量 的 类 型 也 可 以 是 字符 串 ， 但 在 本 书 中 不 做 过 多 的 讨论 。 
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如 下 代码 时 ， 并 不 会 得 到 加 法 的 结果 ， ri 





从 上 面 的 代码 可 以 看 出 TensorFlow 中 的 张 量 和 NumPy 中 的 数组 不 同 ，TensorFlow 计 
算 的 结果 不 是 一 个 具体 的 数字 ， 而 且 一 个 张 量 的 结构 。 从 上 面 代 码 的 运行 结果 可 以 看 出 ， 
一 个 张 量 中 主要 保存 了 三 个 属性 : 名 字 (name)、 维 度 (shape〉 和 类 型 (type)。 

张 量 的 第 一 个 属性 名 字 不 仅 是 一 个 张 量 的 唯一 标识 符 ， 它 同样 也 给 出 了 这 个 张 量 是 如 
何 计算 出 来 的 。 在 3.1.2 小 节 中 介绍 了 TensorFlow 的 计算 都 可 以 通过 计算 图 的 模型 来 建立 ， 
而 计算 图 上 的 每 一 个 节点 代表 了 一 个 计算 ， 计 算 的 结果 就 保存 在 张 量 之 中 。 所 以 张 量 和 计 
算 图 上 节点 所 代表 的 计算 结果 是 对 应 的 。 这 样张 量 的 命名 就 可 以 通过 “node:src_output ”的 
形式 来 给 出 。 其 中 node 为 节点 的 名 称 ，src_output 表示 当前 张 量 来 自 节点 的 第 儿 个 输出 。 
比如 上 面 代 码 打 出 来 的 “add:0” 就 说 明了 result 这 个 张 量 是 计算 节点 “add” 输 出 的 第 一 个 
结果 (编号 从 0 开始 )。 

张 量 的 第 二 个 属性 是 张 量 的 维度 (shape)。 这 个 属性 描述 了 一 个 张 量 的 维度 信息 。 比 
如 上 面 样 例 中 shape= (2, ) 说 明了 张 量 result 是 一 个 一 维 数组 ， 这 个 数组 的 长 度 为 2。 维 
度 是 张 量 一 个 很 重要 的 属性 ， 围 绕 张 量 的 维度 TensorFlow 也 给 出 了 很 多 有 用 的 运算 ， 在 这 
里 先 不 一 一 列举 ， 在 后 面 的 章节 中 将 使 用 到 部 分 运算 。 

张 量 的 第 三 个 属性 是 类 型 (type)， 每 一 个 张 量 会 有 一 个 唯一 的 类 型 。TensorFlow 会 对 
参与 运算 的 所 有 张 量 进行 类 型 的 检查 ， 当 发 现 类 型 不 匹配 时 会 报错 。 比 如 运行 下 面 这 段 程 
序 时 就 会 得 到 类 型 不 匹配 的 错误 : 





这 段 程序 和 上 面 的 样 例 基本 一 模 一 样 , 唯一 不 同 的 是 把 其 中 一 个 加 数 的 小 数 点 去 掉 了 。 
A a 的 类 型 为 整数 而 加 数 b 的 类 型 为 实数 ， 这 样 程序 会 报 类 型 不 Borie he 
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如 果 将 第 一 个 加 数 指定 成 实数 类 型 “a=tfconstant([1, 2], name="a", dtype=tf.float32)”， 
那么 两 个 加 数 的 类 型 相同 就 不 会 报错 了 。 如 果 不 指定 类 型 ，TensorFlow 会 给 出 默认 的 类 型 ， 
比如 不 带 小 数 点 的 数 会 被 默认 为 int32， 带 小 数 点 的 会 默认 为 float32。 因 为 使 用 默认 类 型 有 
可 能 会 导致 潜在 的 类 型 不 匹配 问题 ， 所 以 一 般 建议 通过 指定 dtype 来 明确 指出 变量 或 者 常 
量 的 类 型 。TensorFlow 支持 14 种 不 同 的 类 型 ， 主 要 包括 了 实数 (tffloat32、 tfloat64)、 
整数 (tfint8、 引 int16、 引 int32、 给 int64、 引 wint8)、 布 尔 型 (tf.bool) 和 复数 (tf.complex64、 
tf.complex128)。 


3.2.2” 张 量 的 使 用 


和 TensorFlow 的 计算 模型 相 比 ，TensorFlow 的 数据 模型 相对 比较 简单 。 张 量 使 用 主要 
可 以 总 结 为 两 大 类 。 


第 一 类 用 途 是 对 中 间 计 算 结果 的 引用 。 当 一 个 计算 包含 很 多 中 间 结 果 时 ， 使 用 张 量 可 
以 大 大 提高 代码 的 可 读 性 。 以 下 为 使 用 张 量 和 不 使 用 张 量 记录 中 间 结 果 来 完成 向 量 相 加 的 
功能 的 代码 对 比 。 






从 上 面 的 样 例 程序 可 以 看 到 a 和 其 实 就 是 对 常量 生成 这 个 运算 结果 的 引用 ， 这 样 在 
做 加 法 时 就 可 以 直接 使 用 这 两 个 变量 ， 而 不 需要 再 去 生成 这 些 常 量 。 当 计算 的 复杂 度 增加 
时 (比如 在 构建 深层 神经 网 络 时 ) 通过 张 量 来 引用 计算 的 中 间 结 果 可 以 使 代码 的 可 阅读 性 
大 大 提升 。 同 时 通过 张 量 来 存储 中 间 结 果 ， 这 样 可 以 方便 获取 中 间 结 果 。 比 如 在 卷 积 神经 
网 络 " 中 , 卷 积 层 或 者 池 化 层 有 可 能 改变 张 量 的 维度 ， 通 过 result get_shape 函数 来 获取 结果 
张 量 的 维度 信息 可 以 免 去 人 工 计 算 的 麻烦 。 

使 用 张 量 的 第 二 类 情况 是 当 计算 图 构造 完成 之 后 ， 张 量 可 以 用 来 获得 计算 结果 ， 也 就 
是 得 到 真实 的 数字 。 虽 然 张 量 本 身 没 有 存储 具体 的 数字 ， 但 是 通过 下 面 3.3 小 节 中 介绍 的 
会 话 (session )， 就 可 以 得 到 这 些 具体 的 数字 。 比 如 在 上 述 代 码 中 ， 可 以 使 用 
引 Session().run(result) 语 句 来 得 到 计算 结果 。 


Q 第 6 章 将 介绍 卷 积 神经 网 络 。 
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3.3 TensorFlow 运行 模型 一 一 会 话 


前 面 的 两 节 介绍 了 TensorFlow 是 如 何 组 织 数 据 和 运算 的 。 本 节 将 介绍 如 何 使 用 
TensorFlow 中 的 会 话 (session〉 来 执行 定义 好 的 运算 。 会 话 拥有 并 管理 TensorFlow 程序 运 
行 时 的 所 有 资源 。 当 所 有 计算 完成 之 后 需要 关闭 会 话 来 帮助 系统 回收 资源 ， 否 则 就 可 能 出 
现 资源 泄漏 的 问题 。TensorFlow 中 使 用 会 话 的 模式 一 般 有 两 种 ， 第 一 种 模式 需要 明确 调用 
会 话 生成 函数 和 关闭 会 话 函 数 ， 这 种 模式 的 代码 流程 如 下 。 






使 用 这 种 模式 时 ， 在 所 有 计算 完成 之 后 ， 需 要 明确 调用 Session.close 函数 来 关闭 会 话 
并 释放 资源 。 然 而 ， 当 程序 因为 异常 而 退出 时 ， 关 闭会 话 的 函数 可 能 就 不 会 被 执行 从 而 导 
致 资源 泄漏 。 为 了 解决 异常 退出 时 资源 释放 的 问题 ，TensorFlow 可 以 通过 Python 的 上 下 文 
管理 器 来 使 用 会 话 。 以 下 代码 展示 了 如 何 使 用 这 种 模式 。 






通过 Python 上 下 文 管理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 “with” 的 内 部 就 可 以 。 当 
上 下 文 管理 器 退出 时 候 会 自动 释放 所 有 资源 。 这 样 既 解决 了 因为 异常 退出 时 资源 释放 的 问 
题 ， 同 时 也 解决 了 忘记 调用 Session.close 函数 而 产生 的 资源 泄 。 

3.1 节 介 绍 过 TensorFlow 会 自动 生成 一 个 默认 的 计算 图 ， 如 果 没 有 特殊 指定 ， 运 算 会 自 
动 加 入 这 个 计算 图 中 。TensorFlow 中 的 会 话 也 有 类 似 的 机 制 , 但 TensorFlow 不 会 自动 生成 默 
认 的 会 话 , 而 是 需要 手动 指定 。 当 默认 的 会 话 被 指定 之 后 可 以 通过 tfTensor.eval 函数 来 计算 
一 个 张 量 的 取 值 。 以 下 代码 展示 了 通过 设 定 默认 会 话 计 算 张 量 的 取 值 。 






以 下 代码 也 可 以 完成 相同 的 功能 。 
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在 交互 式 环境 下 (比如 Python 脚本 或 者 Jupyter 的 编辑 器 下 )， 通 过 设置 默认 会 话 的 方 
式 来 获取 张 量 的 取 值 更 加 方便 。 所 以 TensorFlow 提供 了 一 种 在 交互 式 环境 下 直接 构建 默认 
会 话 的 函数 。 这 个 函数 就 是 tInteractiveSession。 使 用 这 个 函数 会 自动 将 生成 的 会 话 注册 为 
默认 会 话 。 以 下 代码 展示 了 奏 InteractiveSession 函数 的 用 法 。 





+ 
ne 


通过 给 InteractiveSession 函数 可 以 省 去 将 产生 的 会 话 注册 为 默认 会 话 的 过 程 。 无 论 使 
用 哪 种 方法 都 可 以 通过 ConfigProto Protocol Buffer" 来 配置 需要 生成 的 会 话 。 下 面 给 出 了 通 
过 ConfigProto 配置 会 话 的 方法 : 







通过 ConfigProto 可 以 配置 类 似 并 行 的 线程 数 、GPU 分 配 策略 、 运 算 超时 时 间 等 参数 。 
在 这 些 参数 中 ， 最 常 使 用 的 有 两 个 。 第 一 个 是 allow_soft_placement， 这 是 一 个 布尔 型 的 参 
数 ， 当 它 为 True 的 时 候 ， 在 以 下 任意 一 个 条 件 成 立 的 时 候 ，GPU 上 的 运算 可 以 放 到 CPU 
上 进行 : 

1. 运算 无 法 在 GPU 上 执行 。 

2. 没有 GPU 资源 (比如 运算 被 指定 在 第 二 个 GPU 上 运行 , 但 是 机 器 只 有 一 个 GPU)。 

3. 运算 输入 包含 对 CPU 计算 结果 的 引用 。 

这 个 参数 的 默认 值 为 False， 但 是 为 了 使 得 代码 的 可 移植 性 更 强 ， 在 有 GPU 的 环境 下 
这 个 参数 一 般 会 被 设置 为 True。 不 同 的 GPU 驱动 版 本 可 能 对 计算 的 支持 有 略微 的 区 别 , 通 
过 将 allow_soft_placement 参数 设 为 True， 当 某 些 运算 无 法 被 当前 GPU 支持 时 ， 可 以 自动 
调整 到 CPU 上 ， 而 不 是 报错 。 类 似 的 ， 通 过 将 这 个 参数 设置 为 True 可 以 让 程序 在 拥有 不 
同 数量 的 GPU 机 器 上 顺利 运行 。 

第 二 个 使 用 得 比较 多 的 配置 参数 是 log_device_placement。 这 也 是 一 个 布尔 型 的 参数 ， 
当 它 为 True 时 日 志 中 将 会 记录 每 个 节点 被 安排 在 了 哪个 设备 上 以 方便 调试 。 而 在 生产 环境 
中 将 这 个 参数 设置 为 False 可 以 减少 日 志 量 。 


0 Protocol Buffer 在 第 2 章 中 有 介绍 。 
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3.4 TensorFlow 实现 神经 网 络 


上 面 3 节 从 不 同 角度 介绍 了 TensorFlow 的 基本 概念 。 在 这 一 节 中 ， 将 结合 神经 网 络 的 
功能 进一步 介绍 如 何 通过 TensorFlow 来 实现 神经 网 络 。 首 先 3.4.1 小 节 将 通过 TensorFlow 
游乐 场 来 简单 介绍 神经 网 络 的 主要 功能 以 及 计算 流程 。 然 后 3.4.2 小 节 将 介绍 神经 网 络 的 前 
向 传播 算法 (forward-propagation)， 并 给 出 使 用 TensorFlow 的 代码 实现 。 接 着 3.4.3 小 节 将 
介绍 如 何 通过 TensorFlow 中 的 变量 来 表达 神经 网 络 的 参数 。 在 3.4.4 小 节 中 将 介绍 神经 网 
络 反 向 传播 (back-propagation) 算法 的 原理 以 及 TensorFlow 对 反 向 传播 算法 的 支持 。 最 后 
在 3.4.5 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程 序 在 随机 的 数据 上 训练 一 个 简单 的 神经 网 络 。 


3.4.1 TensorFlow 游乐 场 及 神经 网 络 简 介 


这 一 小 节 将 通过 TensorFlow 游乐 场 来 快速 介绍 神经 网 络 的 主要 功能 。TensorFlow 游乐 
场 (http://playground.tensorflow.org) 是 一 个 通过 网 页 浏览 器 就 可 以 训练 的 简单 神经 网 络 并 
实现 了 可 视 化 训练 过 程 的 工具 。 图 3-2 给 出 了 TensorFlow 游乐 场 默 认 设置 的 截图 。 


Neural Network 
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图 3-2 TensorFlow 游乐 场 界面 截图 


从 图 3-2 中 可 以 看 出 ，TensorFlow 游乐 场 的 左 侧 提供 了 4 个 不 同 的 数据 集 来 测试 神经 
网 络 。 默 认 的 数据 为 左上 角 被 框 出 来 的 那个 。 被 选中 的 数据 也 会 显示 在 图 3-2 中 最 右边 的 
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“OUTPUT” 栏 下 。 在 这 个 数据 中 ， 可 以 看 到 一 个 三 维 平 面 上 有 黑色 或 者 灰色 的 点 ， 每 一 个 
小 点 代表 了 一 个 样 例 ， 而 点 的 颜色 代表 了 样 例 的 标签 。 因 为 点 的 颜色 只 有 两 种 ， 所 以 这 是 
一 个 二 分 类 的 问题 。 在 这 里 举 一 个 例子 来 说 明 这 个 数据 可 以 代表 的 实际 问题 。 假 设 需 要 判 
断 某 工厂 生产 的 零件 是 否 合格 ， 那 么 灰色 的 点 可 以 表示 所 有 合格 的 零件 而 黑色 的 表示 不 合 
格 的 零件 。 这 样 判 断 一 个 零件 是 否 合格 就 变 成 了 区 分 点 的 颜色 。 

为 了 将 一 个 实际 问题 对 应 到 平面 上 不 同 颜色 点 的 划分 ， 还 需要 将 实际 问题 中 的 实体 ， 
比如 上 述 例子 中 的 零件 ， 变 成 平面 上 的 一 个 点 "。 这 就 是 特征 提取 解决 的 问题 。 还 是 以 零件 
为 例 ， 可 以 用 零件 的 长 度 和 质量 来 大 致 描述 一 个 零件 。 这 样 一 个 物理 意义 上 的 零件 就 可 以 
被 转化 成 长 度 和 质量 这 两 个 数字 。 在 机 器 学 习 中 ， 所 有 用 于 描述 实体 的 数字 的 组 合 就 是 一 
个 实体 的 特征 向 量 (feature vector)。 在 第 1 章 中 介绍 过 ， 特 征 向 量 的 提取 对 机 器 学 习 的 效 
果 至 关 重 要 ， 如 何 提取 特征 本 书 不 再 著述 。 通 过 特征 提取 ， 就 可 以 将 实际 问题 中 的 实体 转 
化 为 空间 中 的 点 。 假 设 使 用 长 度 和 质量 作为 一 个 零件 的 特征 向 量 ， 那 么 每 个 零件 就 是 二 维 
平面 上 的 一 个 点 。TensorFlow 游乐 场 中 FEATURES 一 栏 对 应 了 特征 向 量 。 在 本 小 节 的 样 例 
中 ， 可 以 认为 x 代表 一 个 零件 的 长 度 ， 而 x 代表 零件 的 质量 。 

特征 向 量 是 神经 网 络 的 输入 ， 神 经 网 络 的 主体 结构 显示 在 了 图 3-2 的 中 间 位 置 。 目 前 
主流 的 神经 网 络 都 是 分 层 的 结构 ， 第 一 层 是 输入 层 ， 代 表 特征 向 量 中 每 一 个 特征 的 取 值 。 
比如 如 果 一 个 零件 的 长 度 是 0.5， 那 么 xj 的 值 就 是 0.5。 同 一 层 的 节点 不 会 相互 连接 ， 而 且 
每 一 层 只 和 下 一 层 连 接 ， 直 到 最 后 一 层 作为 输出 层 得 到 计算 的 结果 *。 在 二 分 类 问题 中 ， 比 
如 判断 零件 是 否 合格 ， 神 经 网 络 的 输出 层 往 往 只 包含 一 个 节点 ， 而 这 个 节点 会 输出 一 个 实 
数值 。 通 过 这 个 输出 值 和 一 个 事先 设 定 的 阔 值 ， 就 可 以 得 到 最 后 的 分 类 结果 。 以 判断 零件 
合格 为 例 ， 可 以 认为 当 输 出 的 数值 大 于 0 时 ， 给 出 的 判断 结果 是 零件 合格 ， 反 之 则 零件 不 
合格 。 一 般 可 以 认为 当 输出 值 离 阔 值 越 远 时 得 到 的 答案 越 可 靠 。 

在 输入 和 输出 层 之 间 的 神经 网 络 叫做 隐藏 层 ， 一 般 一 个 神经 网 络 的 隐藏 层 越 多 ， 这 个 
神经 网 络 越 “ 深 ”。 而 所 谓 深度 学 习 中 的 这 个 “深度 ”和 神经 网 络 的 层 数 也 是 密切 相关 的 。 
在 TensorFlow 游乐 场 中 可 以 通过 点 击 “+” 或 者 “-” 来 增加 /减少 神经 网 络 隐藏 层 的 数量 。 
除了 可 以 选择 神经 网 络 的 深度 ，TensorFlow 游乐 场 也 支持 选择 神经 网 络 每 一 层 的 节点 数 以 
及 学 习 率 (learning rate)、 激 活 函 数 〈activation)、 正 则 化 〈regularization)。 如 何 使 用 这 些 
参数 将 在 后 面 的 章节 中 讨论 。 在 本 小 节 中 都 直接 使 用 TensorFlow 游乐 场 默认 的 设置 。 当 所 
有 配置 都 选 好 之 后 ， 可 以 通过 左上 角 的 开始 标志 “ @ ”来 训练 这 个 神经 网 络 。 图 3-3 中 给 
出 了 和 迭代 训练 100 轮 之 后 的 情况 。 


Q@ 在 真实 问题 中 ， 一 般 会 从 实体 中 抽取 更 多 的 特征 ， 所 以 一 个 实体 会 被 表示 为 高 维 空间 中 的 点 。 
@ 有 一 些 神经 网 络 是 可 以 跨 层 连接 的 ， 但 目前 大 部 分 神经 网 络 结构 中 都 只 是 相 邻 两 层 有 连接 。 
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3-3 ”TensorFlow 游乐 场 训练 100 轮 之 后 的 截图 


如 何 训 练 一 个 神经 网 络 将 在 3.4.4 小 节 中 介绍 ， 在 这 里 主要 介绍 如 何 解读 TensorFlow 
游乐 场 的 训练 结果 。 在 图 3-3 中 ， 一 个 小 格子 代表 神经 网 络 中 的 一 个 节点 ， 而 边 代表 节点 
之 间 的 连接 。 每 一 个 节点 和 边 都 被 涂 上 了 或 深 或 浅 的 颜色 ， 但 边 上 的 颜色 和 格子 中 的 颜色 
含义 有 上 略微 的 区 别 。 每 一 条 边 代表 了 神经 网 络 中 的 一 个 参数 ， 它 可 以 是 任意 实数 。 神 经 网 
络 就 是 通过 对 参数 的 合理 设置 来 解决 分 类 或 者 回归 问题 的 。 边 上 的 颜色 体现 了 这 个 参数 的 
取 值 ， 当 边 的 颜色 越 深 时 ， 这 个 参数 取 值 的 绝对 值 越 大 ， 当 边 的 颜色 接近 白色 时 ， 这 个 参 
数 的 取 值 接近 于 0”。 

每 一 个 节点 上 的 颜色 代表 了 这 个 节点 的 区 分 平面 。 具 体 来 说 ， 如 果 把 这 个 平面 当成 一 
个 卡 迪 尔 坐 标 系 ， 这 个 平面 上 的 每 一 个 点 就 代表 了 (xj， x2) 的 一 种 取 值 。 而 这 个 点 的 颜色 
就 体现 了 x;， x 在 这 种 取 值 下 这 个 节点 的 输出 值 。 和 边 类 似 ， 当 节点 的 输出 值 的 绝对 值 越 
大 时 ， 颜 色 越 深 ”>。 下 面 将 具体 解读 输入 层 xj 所 代表 的 节点 。 从 图 3-3 中 可 以 看 到 xj 这 个 
节点 的 区 分 平面 就 是 y 轴 。 因 为 这 个 节点 的 输出 就 是 xj 本 身 的 值 ， 所 以 当 xx 小 于 0 时， 这 
个 节点 的 输出 就 是 负数 ， 而 xj 大 于 0 时 输出 的 就 是 正 数 。 于 是 y 轴 的 左 侧 都 为 灰色 ， 而 右 
侧 都 为 黑色 ”。 图 3-3 中 其 他 节点 可 以 类 似 的 解读 。 唯 一 特殊 的 是 最 右边 OUTPUT 栏 下 的 


QD 在 TensorFlow 游乐 场 网 站 上 ， 边 的 颜色 有 黄色 〈 文 中 浅 色 部 分 ) 和 蓝 色 〈 文 中 深 色 部 分 ) 的 区 别 ， 黄 
色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 

@ 类 似 边 上 的 颜色 ，TensorFlow 游乐 场 网 站 中 ， 点 上 的 颜色 也 有 黄色 (文中 浅 色 部 分 ) 和 蓝 色 (文中 深 
色 部 分 )， 和 边 上 颜色 类 似 ， 黄 色 越 深 表示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 

图 在 TensorFlow 游乐 场 中 ，y 轴 左 侧 为 黄色 (文中 浅 色 部 分 )， 右 侧 为 蓝 色 〔 文 中 深 色 部 分 )。 
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输出 节点 。 这 个 节点 中 除了 显示 了 区 分 平面 之 外 ， 还 显示 了 训练 数据 ， 也 就 是 希望 通过 神 
经 网 络 区 分 的 数据 点 。 从 图 3-3 中 可 以 看 到 ， 经 过 两 层 的 隐藏 层 ， 输 出 节点 的 区 分 平面 已 
经 可 以 完全 区 分 不 同 颜色 的 数据 点 。 

综 上 所 述 ， 使 用 神经 网 络 解决 分 类 问题 主要 可 以 分 为 以 下 4 个 步骤 。 

1. 提取 问题 中 实体 的 特征 向 量 作 为 神经 网 络 的 输入 。 不 同 的 实体 可 以 提取 不 同 的 特征 向 
量 ， 本 书 中 将 不 具体 介绍 。 本 书 假设 作为 神经 网 络 输 入 的 特征 向 量 可 以 直接 从 数据 集中 获取 。 

2. 定义 神经 网 络 的 结构 ， 并 定义 如 何 从 神经 网 络 的 输入 得 到 输出 。 这 个 过 程 就 是 神经 
网 络 的 前 向 传播 算法 ， 在 3.4.2 小 节 中 将 详细 介绍 。 

3. 通过 训练 数据 来 调整 神经 网 络 中 参数 的 取 值 ， 这 就 是 训练 神经 网 络 的 过 程 。3.4.3 
小 节 将 先 介 绍 TensorFlow 中 表示 神经 网 络 参数 的 方法 ， 然 后 3.4.4 小 节 将 大 致 介绍 神经 网 
络 优化 算法 的 框架 ， 并 介绍 如 何 通 过 TensorFlow 实现 这 个 框架 。 

4. 使 用 训练 好 的 神经 网 络 来 预测 未 知 的 数据 。 这 个 过 程 和 步骤 2 中 的 前 向 传播 算法 一 
致 ， 本 书 不 再 装 述 。 

下 面 的 几 个 小 节 将 具体 介绍 如 何 使 用 TensorFlow 来 实现 神经 网 络 中 的 不 同步 又 。 最 后 
在 3.4.5 小 节 将 给 出 一 个 完成 的 程序 来 训练 神经 网 络 。 


3.4.2 ”前 向 传 播 算法 简介 


在 3.4.1 小 节 中 简单 地 介绍 了 神经 网 络 可 以 将 输入 的 特征 向 量 经 过 层 层 推导 得 到 最 后 
的 输出 ， 并 通过 这 些 输出 解决 分 类 或 者 回归 问题 。 那 么 神经 网 络 的 输出 是 如 何 得 到 的 ? 在 
这 一 小 节 中 将 详细 介绍 解决 这 个 问题 的 算法 一 一 前 向 传播 算法 。 不 同 的 神经 网 络 结构 前 向 传 
播 的 方式 也 不 一 样 ， 本 小 节 将 介绍 最 简单 的 全 连接 网 络 结构 的 前 向 传播 算法 ， 并 且 将 展示 如 何 
通过 TensorFlow 实现 这 个 算法 。 为 了 介绍 神经 网 络 的 前 向 传播 算法 ， 需 要 先 了 解 神经 元 的 结 
构 。 神 经 元 是 构成 一 个 神经 网 络 的 最 小 单元 ， 图 3-4 显示 了 一 个 最 简单 的 神经 元 结构 。 


Xowo 


> XiWi 


a ed, 
X1W1 
X2W2 
图 3-4 神经 元 结构 示意 图 
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从 图 3-4 可 以 看 出 ， 一 个 神经 元 有 多 个 输入 和 一 个 输出 。 每 个 神经 元 的 输入 既 可 以 是 
其 他 神经 元 的 输出 ， 也 可 以 是 整个 神经 网 络 的 输入 。 所 谓 神经 网 络 的 结构 就 是 指 的 不 同 神 
经 元 之 间 的 连接 结构 。 如 图 3-4 所 示 ， 一 个 最 简单 的 神经 元 结构 的 输出 就 是 所 有 输入 的 加 
权 和 28， 而 不 同 输入 的 权重 就 是 神经 元 的 参数 。 神 经 网 络 的 优化 过 程 就 是 优化 神经 元 中 参数 
取 值 的 过 程 ， 在 后 面 的 章节 中 将 具体 介绍 。 本 小 节 将 重点 介绍 神经 网 络 的 前 向 传播 过 程 。 
图 3-5 给 出 了 一 个 简单 的 判断 零件 是 否 合格 的 三 层 全 连接 神经 网 络 。 之 所 以 称 之 为 全 连接 
神经 网 络 是 因为 相 邻 两 层 之 间 任意 两 个 节点 之 间 都 有 连接 。 这 也 是 为 了 将 这 样 的 网 络 结构 
和 后 面 章节 中 将 要 介绍 的 卷 积 层 、LSTM 结构 区 分 。 图 3-5 中 除了 输入 层 之 外 的 所 有 节点 
都 代表 了 一 个 神经 元 的 结构 。 本 小 节 将 通过 这 个 样 例 来 解释 前 向 传播 的 整个 过 程 。 








输入 层 隐藏 层 输出 层 





WY =02 











图 3-5 ”判断 零件 是 否 合格 的 三 层 神经 网 络 结构 图 


计算 神经 网 络 的 前 向 传播 结果 需要 三 部 分 信息 。 第 一 个 部 分 是 神经 网 络 的 输入 ， 这 个 
输入 就 是 从 实体 中 提取 的 特征 向 量 。 比 如 在 图 3-5 中 有 两 个 输入 ， 一 个 是 零件 的 长 度 xi， 
一 个 是 零件 的 质量 x。 第 二 个 部 分 为 神经 网 络 的 连接 结构 。 神经 网 络 是 由 神经 元 构成 的 ， 
神经 网 络 的 结构 给 出 不 同 神经 元 之 间 输入 输出 的 连接 关系 。 神经 网 络 中 的 神经 元 也 可 以 称 
之 为 节点 , 在 本 书 之 后 的 章节 中 将 统一 使 用 节点 来 指 代 神 经 网 络 中 的 神经 元 。 在 图 3-5 中 ， 
a 节点 有 两 个 输入 ， 他 们 分 别 是 zi 和 疡 的 输出 。 而 aa 的 输出 则 是 节点 的 输入 。 最 后 一 





Q@ 更 加 复杂 的 神经 元 结构 将 在 第 4 章 中 介绍 。 
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个 部 分 是 每 个 神经 元 中 的 参数 。 在 图 3-5 中 用 球 来 表示 神经 元 中 的 参数 。 球 的 上 标 表 明了 
神经 网 络 的 层 数 ， 比 如 球 ) 表 示 第 一 层 节点 的 参数 ， 而 于 ”表示 第 二 层 节点 的 参数 。 球 的 
下 标 表 明了 连接 节点 编号 ， 比 如 两 入 表示 连接 xi 和 aaz 节点 的 边 上 的 权重 。 如 何 优化 每 一 
条 边 的 权重 将 在 下 面 的 章节 中 介绍 ， 这 一 节 假 设 这 些 权重 是 已 知 的 。 给 定神 经 网 络 的 输入 ， 
神经 网 络 的 结构 以 及 边 上 权重 ， 就 可 以 通过 前 向 传播 算法 来 计算 出 神经 网 络 的 输出 。 图 3-6 
展示 了 这 个 神经 网 络 前 向 传播 的 过 程 。 





输入 层 隐藏 层 输出 层 | 


aal = Wx, 十 WDx; =0.41 | 


3 到 Wan 党 Waiz + Waia 
= 0.116 


是 否 合 





0.116 > 0 二 合格 











az = WO xs + Wx = 0.46 





图 3-6 神经 网 络 前 向 传播 算法 示意 图 


图 3-6 给 出 了 输入 层 的 取 值 x1=0.7 和 x2=0.9。 从 输入 层 开始 一 层 一 层 地 使 用 向 前 传播 算 
法 。 首 先 隐藏 层 中 有 3 个 节点 ， 每 一 个 节点 的 取 值 都 是 输入 层 取 值 的 加 权 和 。 下 面 给 出 了 
ai 取 值 的 详细 计算 过 程 : 

an =WH x +WYx2 =0.7x0.2+0.9x0.3=0.14+0.27=0.41 

alz 和 ay3 也 可 以 通过 类 似 的 方法 计算 得 到 ， 图 3-6 中 也 给 出 了 具体 的 计算 公式 。 在 得 
到 第 一 层 节点 的 取 值 之 后 ， 可 以 进一步 推导 得 到 输出 层 的 取 值 。 类 似 的 ， 输 出 层 中 节点 的 
取 值 就 是 第 一 层 的 加 权 和 : 

y=W an + WG? a + WG a =0.41x0.6+(-0.38)x0.1+0.46x(-0.2) 
=0.246+(-0.038)+(0.092) = 0.116 
因为 这 个 输出 值 大 于 阔 值 0， 所 以 在 这 个 样 例 中 最 后 给 出 的 答案 又 是 : 这 个 产品 是 合 
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格 的 。 这 就 是 整个 前 向 传播 的 算法 。 前 向 传播 算法 可 以 表示 为 矩阵 乘法 。 将 输入 mx 组织 
成 一 个 1x2 的 矩阵 x==[xi,x2]， 而 殉 吓 组 织 成 一 个 2x3 的 矩阵 : 
wm mW Wi 
wm wa ma 
这 样 通过 和 矩阵 乘法 可 以 得 到 隐藏 层 三 个 节点 所 组 成 的 向 量 取 值 : 
WY WO WO 
my ma 1 


1 1 1 1 1 1 
=[W mm + WA x2, WO + WEDx2, Wi x + WISX2] 


了 


- 1 
GY =[ati,a12,a13]=xW! ) | 


类 似 的 输出 层 可 以 表示 为 ， 
LN 

[y]=a WW =[an,ar,ans] WI? |=[WP an + WO a + WG a3] 
Ws? 


这 样 就 将 前 向 传播 算法 通过 矩阵 乘法 的 方式 表达 出 来 了 。 在 TensorFlow 中 和 矩阵 乘法 是 
非常 容易 实现 的 。 以 下 TensorFlow 程序 实现 了 图 3-5 所 未 神经 网 络 的 前 向 传播 过 程 。 

a = tf.matmul (x, wl) 

Y= tf.matmul(a, w2) y Wf 

其 中 tmatmul 实现 了 矩阵 乘法 的 功能 。 到 此 为 止 已 经 详细 地 介绍 了 神经 网 络 的 前 向 传 
播 算法 ， 并 且 给 出 了 TensorFlow 程序 来 实现 这 个 过 程 。 在 之 后 的 章节 中 会 继续 介绍 偏 置 
(bias)、 激 活 函 数 〈activation function) 等 更 加 复杂 的 神经 元 结构 。 也 会 介绍 卷 积 神经 网 络 ， 
LSTM 结构 等 更 加 复杂 的 神经 网 络 结构 。 对 于 这 些 更 加 复杂 的 神经 网 络 ，TensorFlow 也 提 
供 了 很 好 的 支持 ， 后 面 的 章节 中 再 详细 介绍 。 


3.4.3 ”神经 网 络 参 数 与 TensorFlow 变量 


神经 网 络 中 的 参数 是 神经 网 络 实现 分 类 或 者 回归 问题 中 重要 的 部 分 。 本 小 节 将 更 加 县 
体 地 介绍 TensorFlow 是 如 何 组 织 、 保 存 以 及 使 用 神经 网 络 中 的 参数 的 。 在 TensorFlow 中 ， 
变量 (tfVariable 〉 的 作用 就 是 保存 和 更 新 神经 网 络 中 的 参数 。 和 其 他 编程 语言 类 似 ， 
TensorFlow 中 的 变量 也 需要 指定 初始 值 。 因 为 在 神经 网 络 中 ， 给 参数 赋予 随机 初始 值 最 为 
常见 ， 所 以 一 般 也 使 用 随机 数 给 TensorFlow 中 的 变量 初始 化 。 下 面 一 段 代 码 给 出 了 一 种 在 
TensorFlow 中 声明 一 个 2x3 的 矩阵 变量 的 方法 : 

weights = tf.Variable(tf.random normal([2, 3], stddev=2)) 
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这 段 代码 调用 了 TensorFlow 变量 的 声明 函数 红 Variable。 在 变量 声明 函数 中 给 出 了 初 
始 化 这 个 变量 的 方法 。TensorFlow 中 变量 的 初始 值 可 以 设置 成 随机 数 、 常 数 或 者 是 通过 其 
他 变量 的 初始 值 计 算得 到 。 在 上 面 的 样 例 中 ，tftrandom_normal([2, 3], stddev=2) 会 产生 一 个 
2x3 的 矩阵 ， 和 矩阵 中 的 元 素 是 均值 为 0， 标准 差 为 2 的 随机 数 。 人 random_normal 函数 可 以 
通过 参数 mean 来 指定 平均 值 ， 在 没有 指定 时 默认 为 0。 通 过 满足 正太 分 布 的 随机 数 来 初始 
化 神经 网 络 中 的 参数 是 一 个 非常 常用 的 方法 。 除 了 正太 分 布 的 随机 数 ，TensorFlow 还 提供 
了 一 些 其 他 的 随机 数 生成 器 ， 表 3-2 列 出 了 TensorFlow 目前 支持 的 所 有 随机 数 生成 器 。 


表 3-2 TensorFlow 随机 数 生 成 函数 


TI ED 
TT 


tftruncated_normal 正太 分 布 ， 但 如 果 随 机 出 来 的 值 偏离 平均 值 超过 2 个 | 平均 值 、 标 准 差 、 取 值 类 型 
标准 差 ， 那 么 这 个 数 将 会 被 重新 随机 


平均 分 布 最 小 、 最 大 取 值 ， 取 值 类 型 


tfrandom gamma Gamma 分 布 形状 参数 alpha、 尺 度 参数 beta、 取 
值 类 型 


TensorFlow 也 支持 通过 常数 来 初始 化 一 个 变量 。 表 3-3 给 出 了 TensorFlow 中 常用 的 常 
量 声明 方法 。 











表 3-3 TensorFlow 常数 生成 函数 
产生 全 0 的 数组 tfzeros([2, 3] int32) -> [[0, 0, 0], [0, 0, 0]] 


产生 全 1 的 数组 ttones([2, 3], int32) -> [[1, 1, 1], [1, 1, 1]] 













产生 一 个 全 部 为 给 定数 字 的 数组 ttfill(2, 3], 9) > [9, 9, 9], [9, 9, 9] 
产生 一 个 给 定 值 的 常量 tfconstant([1, 2; 3]) -> [1.2.3] 


在 神经 网 络 中 ， 偏 置 项 (bias) 通常 会 使 用 常数 来 设置 初始 值 。 以 下 代码 给 出 了 一 个 样 例 。 

biases = tf.variable(tf.zeZos(I3)) 5 

这 段 代 码 将 会 生成 一 个 初始 值 全 部 为 0 且 长 度 为 3 的 变量 。 除了 使 用 随机 数 或 者 常数 ， 
TensorFlow 也 支持 通过 其 他 变量 的 初始 值 来 初始 化 新 的 变量 。 以 下 代码 给 出 了 具体 的 方法 。 


w2 = tf,Variable (weights. initialized value()) Kemer ney 
w3 = tf.Variable (weights.initialized value() * 2.0) 






ve 
We 


以 上 代码 中 ，w2 的 初始 值 被 设置 成 了 与 weights 变量 相同 。w3 的 初始 值 则 是 weights 
初始 值 的 两 倍 。 在 TensorFlow 中 ,一 个 变量 的 值 在 被 使 用 之 前 ， 这 个 变量 的 初始 化 过 程 需要 
被 明确 地 调用 。 以 下 样 例 介绍 了 如 何 通过 变量 实现 神经 网 络 的 参数 并 实现 前 向 传播 的 过 程 。 
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上 面 这 段 程序 实现 了 神经 网 络 的 前 向 传播 过 程 。 从 这 段 代 码 可 以 看 到 ， 当 声明 了 变量 
Wl、w2 之 后 ， 可 以 通过 wl 和 w2 来 定义 神经 网 络 的 前 向 传播 过 程 并 得 到 中 间 结 果 a 和 最 
后 答案 y。 定 义 wl、w2、a 和 y 的 过 程 对 应 了 3.1.2 小 节 中 介绍 的 TensorFlow 程序 的 第 一 
步 。 这 一 步 定 义 了 TensorFlow 计算 图 中 所 有 的 计算 ， 但 这 些 被 定义 的 计算 在 这 一 步 中 并 不 
真正 的 运行 。 当 需要 运行 这 些 计算 并 得 到 具体 数字 时 , 需要 进入 TensorFlow 程序 的 第 二 步 。 

在 TensorFlow 程序 的 第 二 步 会 声明 一 个 会 话 (session)， 并 通过 会 话 计 算 结果 。 在 上 面 
的 样 例 中 ， 当 会 话 定义 完成 之 后 就 可 以 开始 真正 运行 定义 好 的 计算 了 。 但 在 计算 y 之 前 ， 
需要 将 所 有 用 到 的 变量 初始 化 。 也 就 是 说 ， 虽 然 在 变量 定义 时 给 出 了 变量 初始 化 的 方法 ， 
但 这 个 方法 并 没有 被 真正 运行 。 所 以 在 计算 y 之 前 ， 需 要 通过 运行 wl.initializer 和 
w2.initializer 来 给 变量 赋值 。 虽 然 直接 调用 每 个 变量 的 初始 化 过 程 是 一 个 可 行 的 方案 , 但 是 
当 变 量 数目 增多 ， 或 者 变量 之 间 存 在 依赖 关系 时 ， 单 个 调用 的 方案 就 比较 麻烦 了 。 为 了 解决 
这 个 问题 ，TensorFlow 提供 了 一 种 更 加 便捷 的 方式 来 完成 变量 初始 化 过 程 。 下 面 的 程序 展示 
了 通过 tfinitialize_all_variables 函数 实现 初始 化 所 有 变量 的 过 程 。 


55 


wwaibbt.com DODOODDDOD 


TensorFlow: 实战 Google 深度 学 习 框 架 


通过 tfinitialize_all variables 函数 ， 就 不 需要 将 变量 一 个 一 个 初始 化 了 。 这 个 函数 也 会 
自动 处 理 变量 之 间 的 依赖 关系 。 下 面 的 章节 都 将 使 用 这 个 函数 来 完成 变量 的 初始 化 过 程 。 

在 3.2 节 中 介绍 过 TensorFlow 的 核心 概念 是 张 量 (tensor)， 所 有 的 数据 都 是 通过 张 量 
的 形式 来 组 织 的， 那么 本 小 节 介绍 的 变量 和 张 量 是 什么 关系 昵 ?在 TensorFlow 中 ， 变 量 的 
声明 函数 tfVariable 是 一 个 运算 。 这 个 运算 的 输出 结果 就 是 一 个 张 量 ， 这 个 张 量 也 就 是 本 
节 中 介绍 的 变量 。 所 以 变量 只 是 一 种 特殊 的 张 量 。 下 面 将 进一步 介绍 给 Variable 操作 在 
TensorFlow 中 底层 是 如 何 实现 的 。 图 3-7 给 出 了 神经 网 络 前 向 传播 样 例 程序 的 TensorFlow 
计算 图 的 一 个 部 分 ， 这 个 部 分 显示 了 和 变量 wl 相关 的 操作 。 


sire LAssign 


(w1) A 


read 
(Wp. MatMul 





图 3-7 神经 网 络 前 向 传播 样 例 中 变量 wl 相关 部 分 的 计算 图 可 视 化 结果 ” 


在 图 3-7 上 黑色 的 椭圆 代表 了 变量 w1， 可 以 看 到 wl 是 一 个 Variable 运算 。 在 这 张 图 
的 下 方 可 以 看 到 wl 通过 一 个 read 操作 将 值 提供 给 了 一 个 乘法 运算 ， 这 个 乘法 操作 就 是 
tfmatmul(x, w1)。 初 始 化 变量 wl 的 操作 是 通过 Assign 操作 完成 的 。 在 图 3-7 上 可 以 看 到 
Assign 这 个 节点 的 输入 为 随机 数 生成 函数 的 输出 ,而 且 输 出 赋 给 了 变量 wl。 这 样 就 完成 了 
变量 初始 化 的 过 程 。 

3.1.2 小 节 介 绍 了 TensorFlow 中 集合 (collection) 的 概念 ， 所 有 的 变量 都 会 被 自动 的 加 
入 GraphKeys.VARIABLES 这 个 集合 。 通 过 给 all_variables 函数 可 以 拿 到 当前 计算 图 上 所 有 
的 变量 。 拿 到 计算 图 上 所 有 的 变量 有 助 于 持久 化 整个 计算 图 的 运行 状态 ， 在 第 5 章 中 将 更 
加 详细 地 介绍 。 当 构建 机 器 学 习 模型 时 , 比如 神经 网 络 , 可 以 通过 变量 声明 函数 中 的 trainable 
参数 来 区 分 需要 优化 的 参数 (比如 神经 网 络 中 的 参数 ) 和 其 他 参数 (比如 迭代 的 轮 数 )。 如 
果 声 明 变 量 时 参数 trainable 为 Te， 那么 这 个 变量 将 会 被 加 入 GraphKeys.TRAINABLE_ 
VARIABLES 集合 。 在 TensorFlow 中 可 以 通过 给 trainable_variables 函数 得 到 所 有 需要 优化 


Q@ 此 图 是 通过 TensorBoard 可 视 化 工具 绘制 的 ， 将 在 第 9 章 中 详细 介绍 TensorBoard 。 
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的 参数 。TensorFlow 中 提供 的 神经 网 络 优化 算法 会 将 GraphKeys.TRAINABLE VARIABLES 
集合 中 的 变量 作为 默认 的 优化 对 象 。 

类 似 张 量 ， 维 度 〈shape) 和 类 型 《type) 也 是 变量 最 重要 的 两 个 属性 。 和 大 部 分 程序 
语言 类 似 ， 变量 的 类 型 是 不 可 改变 的 。 一 个 变量 在 构建 之 后 ， 它 的 类 型 就 不 能 再 改变 了 。 
比如 在 上 面 给 出 的 前 向 传播 样 例 中 ,wl 的 类 型 为 random_normal 结果 的 默认 类 型 tffloat32， 
那么 它 将 不 能 被 赋予 其 他 类 型 的 值 。 以 下 代码 将 会 报 出 类 型 不 匹配 的 错误 。 













维度 是 变量 另 一 个 重要 的 属性 。 和 类 型 不 大 一 样 的 是 ， 维度 在 程序 运行 中 是 有 可 能 改 
变 的 ， 但 是 需要 通过 设置 参数 Validate shape=False。 下 面 给 出 了 一段 示 范 代码 。 








虽然 TensorFlow 支持 更 改变 量 的 维度 ， 但 是 这 种 用 法 在 实践 中 比较 罕见 。 
3.4.4 通过 TensorFlow 训练 神经 网 络 模型 

3.4.3 小 节 介 绍 了 如 何 通过 TensorFlow 变量 来 表示 神经 网 络 中 的 参数 , 并 给 出 了 一 个 样 
例 程序 来 完成 神经 网 络 的 前 向 传播 过 程 。 在 这 个 样 例 程序 中 ， 所 有 变量 的 取 值 都 是 随机 的 。 
在 使 用 神经 网 络 解决 实际 的 分 类 或 者 回归 问题 时 ( 比如 判断 一 个 零件 是 否 合 格 ) 需要 更 好 
地 设置 参数 取 值 。 这 一 小 节 将 简单 介绍 使 用 监督 学 习 的 方式 来 更 合理 地 设置 参数 取 值 ， 同 


时 也 将 给 出 TensorFlow 程序 来 完成 这 个 过 程 。 设置 神经 网 络 参数 的 过 程 就 是 神经 网 络 的 训 
练 过程 。 只 有 经 过 有 效 训练 的 神经 网 络 模型 才 可 以 真正 的 解决 分 类 或 者 回归 问题 。 图 3-8 
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TEMSOWIOMO TU TT RT 


对 比 了 训练 之 前 和 训练 之 后 神经 网 络 模型 的 分 类 效果 。 从 图 中 可 以 看 出 ， 模 型 在 训练 之 前 
是 完全 无 法 区 分 黑色 点 和 灰色 点 的 ， 但 经 过 训练 之 后 区 分 效果 已 经 很 好 了 。 





使 用 监督 学 习 的 方式 设置 神经 网 络 参数 需要 有 一 个 标注 好 的 训练 数据 集 。 以 判断 零件 
是 否 合格 为 例 ， 这 个 标注 好 的 训练 数据 集 就 是 收集 的 一 批 合格 零件 和 一 批 不 合格 零件 。 在 
3-8 中 ， 图 上 黑色 点 和 灰色 点 代表 的 就 是 训练 数据 集 ， 而 平面 上 或 深 或 浅 的 颜色 表示 了 
神经 网 络 模型 做 出 的 判断 。 如 3.4.1 小 节 所 介绍 的 ， 一 个 地 方 的 颜色 越 深 ,那么 表示 神经 网 
络 模 型 对 它 的 判断 越 有 信心 >。 左 侧 的 图 片 显示 的 是 一 个 神经 网 络 在 训练 之 前 的 分 类 效果 ， 
这 时 所 有 变量 的 取 值 都 是 随机 数 。 可 以 看 到 这 个 平面 上 的 颜色 都 很 浅 ， 而 且 完全 区 分 不 出 
灰色 点 和 黑色 点 。 右 侧 图 片 显 示 了 经 过 训练 后 的 神经 网 络 的 情况 。 可 以 看 到 图 上 黑色 点 和 
灰色 点 可 以 很 清晰 地 被 区 分 开 来 ， 而 且 除了 中 间 有 一 圈 是 浅 色 的 ， 其 他 地 方 神经 网 络 都 可 
以 给 出 非常 确定 的 答案 。 

监督 学 习 最 重要 的 思想 就 是 ， 在 已 知 答案 的 标注 数据 集 上 ， 模型 给 出 的 预测 结果 要 尽 
量 接 近 真 实 的 答案 。 通过 调整 神经 网 络 中 的 参数 对 训练 数据 进行 拟 合 ， 可 以 使 得 模型 对 未 
知 的 样本 提供 预测 的 能 力 。 图 3-8 中 右 侧 图 片 中 右 止 角 的 深 色 点 就 很 有 可 能 和 灰色 点 有 相 
同 的 标签 。 如 果 灰 色 点 代表 不 合格 的 零件 ， 那么 这 个 深 色 点 所 代表 的 零件 应 该 也 不 合格 。 

在 神经 网 络 优化 算法 中 ， 最 常用 的 方法 是 反 向 传播 算法 〈backpropagation )。 反 向 传播 
算法 的 具体 工作 原理 将 在 下 面 的 4.3 小 节 中 详 述 。 本 小 节 将 主要 介绍 训练 神经 网 络 的 整体 
流程 以 及 TensorFlow 对 于 这 个 流程 的 支持 。 图 3-9 展示 了 使 用 反 向 传播 算法 训练 神经 网 络 
的 流程 图 。 





@ 在 TensorFlow 游乐 场 有 两 种 颜色 ， 一 种 黄色 文中 浅 色 部 分 )， 一 种 蓝 色 (文中 深 色 部 分 )。 任 意 一 种 
颜色 越 深 ， 都 代表 判断 的 信心 越 大 。 
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初始 化 变量 
训练 次 数 =0 
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练 数据 
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是 
(十 用 


目标 






图 3-9 神经 网 络 反 向 传播 优化 流程 图 


从 图 3-9 中 可 以 看 出 ， 反 向 传播 算法 实现 了 一 个 兴 代 的 过 程 。 在 每 次 欠 代 的 开始 ， 首 
先 需 要 选取 一 小 部 分 训练 数据 ， 这 一 小 部 分 数据 叫做 一 个 batch。 然 后 ， 这 个 batch 的 样 例 


所 以 可 以 计算 出 当前 神经 网 络 模型 的 预测 答案 与 正确 答案 之 间 的 差距 最 后 ， 基 于 这 预测 
值 和 真实 值 之 间 的 差距 ， 反问 传播 算法 会 相应 更 新 神经 网 络 参数 的 取 值 ， 使 得 在 这 个 batch 


通过 TensorFlow 实现 反 向 传播 算法 的 第 一 步 是 使 用 TensorFlow 表达 一 个 batch 的 数据 。 
在 3.4.3 小 节 中 尝试 过 使 用 常量 来 表达 过 一 个 样 例 : 
x = tf.constant (TI0.7, Og]) 


但 如 果 每 轮 迭 代 中 选取 的 数据 都 要 通过 常量 来 表示 ， 那么 TensorFlow 的 计算 图 将 会 大 
大 。 因 为 每 生成 一 个 常量 ，TensorFlow 都 会 在 计算 图 中 增加 一 个 节点 。 一 般 来 说 ， 一 个 神 
经 网 络 的 训练 过 程 会 需要 经 过 几 百 万 轮 甚至 几 亿 轮 的 迭代 ， 这 样 计算 图 就 会 非常 大 ， 而 且 
利用 率 很 低 。 为 了 避免 这 个 问题 ， TensorFlow 提供 了 placeholder 机 制 用 于 提供 输入 数据 。 
Placeholder 相当 于 定义 了 一 个 位 置 ， 这 个 位 置 中 的 数据 在 程序 运行 时 再 指定 。 这 样 在 程序 
中 就 不 需要 生成 大 量 常量 来 提供 输入 数据 ， 而 只 需要 将 数据 通过 placeholder 传 入 
TensorFlow 计算 图 。 在 placeholder 定义 时 ， 这 个 位 置 上 的 数据 类 型 是 需要 指定 的 。 和 其 他 
张 量 一 样 ，placeholder 的 类 型 也 是 不 可 以 改变 的 。 Placeholder 中 数据 的 维度 信息 可 以 根据 
提供 的 数据 推导 得 出 ， 所 以 不 一 定 要 给 出 。 下 面 给 出 了 通过 placeholder 实现 前 向 传播 算法 
的 代码 。 
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在 这 段 程序 中 替换 了 原来 通过 常量 定义 的 输入 x。 在 新 的 程序 中 计算 前 向 传播 结果 时 ， 
需要 提供 一 个 feed_dict 来 指定 x 的 取 值 。feed_dict 是 一 个 字典 (map)， 在 字典 中 需要 给 出 
每 个 用 到 的 placeholder 的 取 值 。 如 果 某 个 需要 的 placeholder 没有 被 指定 取 值 ， 那 么 程序 在 
运行 时 将 会 报错 。 

上 面 的 程序 只 计算 了 一 个 样 例 的 前 向 传播 结果 ， 但 如 图 3-9 所 示 ， 在 训练 神经 网 络 时 
需要 每 次 提供 一 个 batch 的 训练 样 例 。 对 于 这 样 的 需求 ,placeholder 也 可 以 很 好 地 支持 。 在 
上 面 的 样 例 程 序 中 ， 如 果 将 输入 的 1x2 托 阵 改 为 ax2 的 矩阵 ， 那 么 就 可 以 得 到 普 个 样 例 的 
前 向 传播 结果 了 。 其 中 mx2 的 矩阵 的 每 一 行为 一 个 样 例 数据 。 这 样 前 向 传播 的 结果 为 mx1 
的 矩阵 ， 这 个 矩阵 的 每 一 行 就 代表 了 一 个 样 例 的 前 向 传播 结果 。 下 面 的 程序 片 给 出 了 一 个 
示例 。 
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上 面 的 样 例 展示 了 一 次 性 计算 多 个 样 例 的 前 向 传播 结果 。 在 运行 时 ， 需 要 将 3 个 样 例 
[0.7,0.9]、[0.1,0.4] 和 [0.5,0.8] 组 成 一 个 3x2 的 矩阵 传 入 placeholder。 计 算得 到 的 结果 为 3x1 
的 矩阵 。 其 中 第 一 行 3.95757794 为 样 例 [0.7,0.9] 的 前 向 传播 结果 ; 1.15376544 为 样 例 [0.1,0.4] 
的 前 向 传播 结果 ; 3.16749191 为 样 例 [0.5,0.8] 的 前 向 传播 结果 。 

在 得 到 一 个 batch 的 前 向 传播 结果 之 后 ， 需 要 定义 一 个 损失 函数 来 刻画 当前 的 预测 值 
和 真实 答案 之 间 的 差距 。 然 后 通过 反 向 传播 算法 来 调整 神经 网 络 参数 的 取 值 使 得 差距 可 以 
被 缩小 。 损 失 函 数 和 反 向 传播 算法 将 在 第 4 章 中 更 加 详细 地 介绍 。 以 下 代码 定义 了 一 个 简 
单 的 损失 函数 ， 并 通过 TensorFlow 定义 了 反 向 传播 的 算法 。 





在 上 面 的 代码 中 , cross_entropy 定义 了 真实 值 和 预测 值 之 间 的 交叉 箭 ? (cross entropy)， 
这 是 分 类 问题 中 一 个 常用 的 损失 函数 。 第 二 行 train_step 定义 了 反 向 传播 的 优化 方法 。 目 前 
TensorFlow 支持 7 种 不 同 的 优化 器 ， 读 者 可 以 根据 具体 的 应 用 选择 不 同 的 优化 算法 。 比 较 
常用 的 优化 方法 有 三 种 : tftrain.GradientDescentOptimizer 、tftrain.AdamOptimizer 和 
ttrain.MomentumOptimizer。 在 定义 了 反 向 传播 算法 之 后 ， 通 过 运行 sess.run(train_step) 就 
可 以 对 所 有 在 GraphKeys.TRAINABLE VARIABLES 集合 中 的 变量 ?进行 优化 , 使 得 在 当前 
batch 下 损失 函数 更 小 。 下 面 的 3.4.5 小 节 将 给 出 一 个 完整 的 训练 神经 网 络 样 例 程序 。 


3.4.5 ”完整 神经 网 络 样 例 程序 
本 小 节 将 在 一 个 模拟 数据 集 上 训练 神经 网 络 。 下 面 给 出 了 一 个 完整 的 程序 来 训练 神经 
Q@ 在 第 4 章 中 将 更 加 具体 的 介绍 交叉 炳 损失 函数 。 


@ TensorFlow 计算 图 中 集合 的 概念 在 3.1.2 小 节 有 介绍 。 
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网 络 解决 二 分 类 问题 。 
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人 






gt ER 


结 出 训练 神经 网 络 的 


i | El a Ad pr Uno 


上 面 的 程序 实现 了 训练 神经 网 络 的 全 部 过 程 。 从 这 段 程序 可 以 总 
过 程 可 以 分 为 以 下 3 个 步骤 ; 

1. 定义 神经 网 络 的 结构 和 前 向 传播 的 输出 结果 。 

2. 定义 损失 函数 以 及 选择 反 向 传播 优化 的 算法 。 

3， 生 成 会 话 (tfSession〉 并 且 在 训练 数据 上 反复 运行 反 向 传播 优化 算法 。 
无 论 神经 网 络 的 结构 如 何 变 化 ， 这 3 个 步骤 是 不 变 的 。 


小 结 


本 童 首先 介绍 了 TensorFlow 里 最 基本 的 三 个 概念 一 一 计算 图 ( 世 Graph)、 张 量 
CtfTensor) 和 会 话 (tfSession)。 在 3.1 节 中 ， 介 绍 了 TensorFlow 中 计算 图 的 概念 。 计 算 图 
是 TensorFlow 的 计算 模型 ， 所 有 TensorFlow 的 程序 都 会 通过 计算 图 的 形式 表示 。 计 算 图 上 
的 每 一 个 节点 都 是 一 个 运算 ， 而 计算 图 上 的 边 则 表示 了 运算 之 间 的 数据 传递 关系 。 计 算 图 
上 还 保存 了 运行 每 个 运算 的 设备 信息 〈 比 如 是 通过 CPU 上 还 是 GPU 运行 ) 以 及 运算 之 间 
的 依赖 关系 。 计 算 图 提供 了 管理 不 同 集合 的 功能 ， 并 且 TensorFlow 会 自动 维护 五 个 不 同 的 
默认 集合 。3.2 节 介 绍 了 张 量 的 概念 。 张 量 是 TensorFlow 的 数据 模型 ，TensorFlow 中 所 有 
运算 的 输入 、 输 出 都 是 张 量 。 张 量 本 身 并 不 存储 任何 数据 ， 它 只 是 对 运算 结果 的 引用 。 通 
过 张 量 ， 可 以 更 好 地 组 织 TensorFlow 程序 。 接 着 3.3 节 介绍 了 TensorFlow 中 的 会 话 。 会 话 
是 TensorFlow 的 运算 模型 ， 它 管理 了 一 个 TensorFlow 程序 拥有 的 系统 资源 ， 所 有 的 运算 都 
要 通过 会 话 执行 。 

本 章 的 最 后 一 节 介 绍 了 如 何 使 用 TensorFlow 来 实现 神经 网 络 的 训练 过 程 。 首 先 3.4.1 
小 节 结 合 TensorFlow 游乐 场 简单 介绍 了 神经 网 络 的 大 致 功能 ， 并 介绍 了 使 用 神经 网 络 的 几 
个 主要 步骤 。 然 后 在 接 下 来 的 3.4.2 到 3.4.4 小 节 中 ， 依次 介绍 了 神经 网 络 的 前 向 传播 算法 、 
神经 网 络 中 的 参数 在 TensorFlow 中 的 表示 以 及 神经 网 络 的 反 向 传播 优化 算法 框架 。 综 合 这 
3 个 小 节 的 内 容 , 最 后 3.4.5 小 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 神经 网 络 。 在 下 
面 的 第 4 章 中 ， 将 更 加 深入 地 介绍 设计 和 优化 神经 网 络 中 的 细节 。 


wwaibbt.com DODOOODODOD 








第 3 章 介绍 了 TensorFlow 的 主要 概念 , 并 且 给 出 了 一 个 完整 的 TensorFlow 程序 来 训练 
神经 网 络 。 在 这 一 章 中 ， 将 进一步 介绍 如 何 设计 和 优化 神经 网 络 ， 使 得 它 能 够 更 好 地 对 未 
知 的 样本 进行 预测 。 首 先 在 4.1 节 中 ， 将 介绍 深度 学 习 与 深层 神经 网 络 的 概念 ， 并 给 出 一 
个 实际 的 样 例 来 说 明 深层 神经 网 络 可 以 解决 部 分 浅 层 神 经 网 络 解决 不 了 的 问题 。 然 后 在 4.2 
节 中 ， 将 介绍 如 何 设 定神 经 网 络 的 优化 目标 。 这 个 优化 目标 也 就 是 损失 函数 。 这 一 节 将 分 
别 介绍 分 类 问题 和 回归 问题 中 比较 常用 的 几 种 损失 函数 。 除 了 使 用 经 典 的 损失 函数 外 ， 在 
这 一 节 中 将 给 出 一 个 样 例 来 讲解 如 何 通 过 对 损失 函数 的 设置 ， 使 神经 网 络 优化 的 目标 更 加 
接近 实际 问题 的 需求 。 接 着 ，4.3 节 将 更 加 详细 地 介绍 神经 网 络 的 反 向 传播 算法 ， 并 且 给 出 
一 个 TensorFlow 框架 来 实现 反 向 传播 的 过 程 。 在 对 神经 网 络 优 化 有 了 进一步 了 解 之 后 ,最 后 
4.4 节 将 介绍 在 神经 网 络 优 化 中 经 常 遇 到 的 几 个 问题 ， 并 且 给 出 解决 这 些 问题 的 具体 方法 。 


4.1 深度 学 习 与 深层 神经 网 络 


维基 百科 对 深度 学 习 的 精确 定义 为 “一 类 通过 多 层 非 线性 变换 对 高 复杂 性 数据 建 模 算 
法 的 合集 ””。 因 为 深层 神经 网 络 是 实现 “多 层 非 线性 变换 ”最 常用 的 一 种 方法 ， 所 以 在 实 
际 中 基本 上 可 以 认为 深度 学 习 就 是 深层 神经 网 络 的 代名词 。 从 维基 百科 给 出 的 定义 可 以 看 
出 ， 深 度 学 习 有 两 个 非常 重要 的 特性 一 一 多 层 和 非 线 性 。 那 么 为 什么 要 强调 这 两 个 性 质 ? 
本 小 节 将 给 出 详细 的 解释 ， 并 且 将 通过 具体 的 样 例 来 说 明 这 两 点 在 对 复杂 问题 建 模 时 是 缺 
一 不 可 的 。4.1.1 小 节 将 先 介绍 线性 变换 存在 的 问题 ， 以 及 为 什么 要 在 深度 学 习 的 定义 中 强 
调 “ 复 杂 问 题 ”。 然 后 在 4.1.2 小 节 中 ， 将 介绍 如 何 实现 去 线性 化 ， 并 给 出 TensorFlow 程序 
来 实现 去 线性 化 的 功能 。 最 后 4.1.3 小 节 将 介绍 一 个 具体 的 样 例 来 说 明 深 层 网 络 比 浅 层 网 络 


Q@ 具体 定义 可 以 参考 维基 百科 : https://en.wikipedia.org/wiki/Deep_learning。 
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可 以 解决 更 多 的 问题 。 
4.1.1 ”线性 模型 的 局 限 性 


在 线性 模型 中 ， 模 型 的 输出 为 输入 的 加 权 和 。 假 设 一 个 模型 的 输出 y 和 输入 x; 满 足以 
下 关系 ， 那 么 这 个 模型 就 是 一 个 线性 模型 。 
了 = 》 wix +b 


其 中 w,peR 为 模型 的 参数 。 被 称 之 为 线性 模型 是 因为 当 模 型 的 输入 只 有 一 个 的 时 候 ， 
x 和 ?形成 了 二 维 坐标 系 上 的 一 条 直线 。 类 似 的 ， 当 模型 有 7 个 输入 时 ,x 和 yy 形成 了 n+l 
维 室 间 中 的 一 个 平面 。 而 一 个 线性 模型 中 通过 输入 得 到 输出 的 函数 被 称 之 为 一 个 线性 变换 。 
上 面 的 公式 就 是 一 个 线性 变换 。 线 性 模型 的 最 大 特点 是 任意 线性 模型 的 组 合 仍然 还 是 线性 
模型 。 细 心 的 读者 可 能 已 经 注意 到 了 ，3.4.2 小 节 中 所 介绍 的 前 向 传播 算法 实现 的 就 是 一 个 
线性 模型 。 在 3.4.2 小 节 中 ， 前 向 传播 的 计算 公式 为 : 
a0 =xWO, y=adW® 
其 中 x 为 输入 ， 球 为 参数 。 整 理 一 下 上 面 的 公式 可 以 得 到 整个 模型 的 输出 为 : 
了 = (xWO WO 
根据 矩阵 乘法 的 结合 律 有 : 
y=x(WOWO)=xW' 
而 WDW* 其 实 可 以 被 表示 为 一 个 新 的 参数 W': 


WO? 
(D) 1 (1) 8 (Dyr(2) 1) yr (2) (Dy (2) 
WW? | WO 0 WS + WDW2Y + WS Ws FE 


(1) () (GD 241 | | zzr(O) (DTyr(2) (DTyzr(2) 1 
Wi WW Ws WW + WW + WW Wa 


W'= WoW ey | 
Ws 


这 样 输入 和 输出 的 关系 就 可 以 表示 为 
WW 
yxW'= [a =] | =I + Wa] 
W2 


其 中 球 " 是 新 的 参数 。 这 个 前 向 传播 的 算法 完全 符合 线性 模型 的 定义 。 从 这 个 例子 可 以 
看 到 ， 虽 然 这 个 神经 网 络 有 两 层 〈 不 算 输入 层 )， 但 是 它 和 单 层 的 神经 网 络 并 没有 区 别 。 以 
此 类 推 ， 只 通过 线性 变换 ， 任 意 层 的 全 连接 神经 网 络 和 单 层 神经 网 络 模型 的 表达 能 力 没有 
任何 区 别 ， 而 且 它 们 都 是 线性 模型 。 然 而 线性 模型 能 够 解决 的 问题 是 有 限 的 。 这 就 是 线性 
模型 最 大 的 局 限 性 ， 也 是 为 什么 深度 学 习 要 强调 非 线性 。 在 下 面 的 篇 幅 中 ， 将 通过 
TensorFlow 游乐 场 给 出 一 个 具体 的 例子 来 验证 线性 模型 的 局 限 性 。 


66 
wwaibbt.com DODOODDDOD 


第 4 章 深层 神经 网 络 


还 是 以 判断 零件 是 否 合 格 为 例 ， 输 入 为 x1 和 x 如 ， 其 中 x! 代表 一 个 零件 质量 和 平均 质量 
的 差 ， x 代表 一 个 零件 长 度 和 平均 长 度 的 差 。 假 设 一 个 零件 的 质量 及 长 度 离 平 均 质量 及 长 度 
越 近 ， 那 么 这 个 零件 越 有 可 能 合格 。 于 是 训练 数据 很 有 可 能 服从 图 4-1 所 示 的 分 布 。 





5 .3 2 4 5 


4-1 零件 合格 问题 数据 分 布 示 意图 


图 4-1 上 黑色 的 点 代表 合格 的 零件 ， 而 灰色 的 点 代表 不 合格 的 零件 。 可 以 看 到 虽然 黑 
色 和 灰色 的 点 有 一 些 重合 ， 但 是 大 部 分 代表 合格 零件 的 黑色 点 都 在 原点 (0,0) 的 附近 ， 而 代 
表 不 合格 零件 的 灰 点 都 在 离 原点 相对 远 的 地 方 。 这 样 的 分 布 比较 接近 真实 问题 ， 因 为 大 部 
分 真实 的 问题 都 存在 大 致 的 趋势 ， 但 是 很 难 甚至 无 法 完全 正确 地 区 分 不 同 的 类 别 。 图 4-2 
显示 了 使 用 TensorFlow 游乐 场 训 练 线性 模型 解决 这 个 问题 的 效果 。 





让 
f sn ee Can Feouaartcpre tir Un aren ype 
| ” 000,100 o3 Gi pone Ginsshcaion 
| 
DATA FEATURES 二 一 1 NIDDENLAYER OUTPUT 
Pha datyers oo 有 网 了 . Test lass O0497 
yoy so WD se? You wax 40 eed mi 本 全 ainmg Kss 0 295 
Jn 
| 一 一 es 
加 re ds 
"Ws a 
“器 一 日 A 
Foe ef raming to ”by 3 
所 > 生计 
于 细 1 
ee 
Nom 2 3 AN - 
一 一 | i ~ 
oav te ees 4 可 Fe 
Ban ow oO 5 per 
—e [ys ' 
* 
MOGENERATE | 
ER 
口 3now ws say 口 bwcrnien ectpwk 











图 4-2 ”使 用 线性 模型 解决 线性 不 可 分 问题 的 效果 
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图 4-2 使 用 的 模型 有 一 个 隐藏 层 ， 并且 在 顶部 激活 函数 ”〈《Activation) 那 一 栏 中 选择 了 
线性 (Linear)， 这 和 3.4.1 小 节 中 介绍 的 神经 网 络 结构 是 基本 一 致 的 。 通 过 TensorFlow 游 
乐 场 对 这 个 模型 训练 100 轮 之 后 ， 在 最 右边 那 一 栏 可 以 看 到 训练 的 结果 。 从 图 4-2 上 可 以 
看 出 ， 这 个 模型 并 不 能 很 好 的 区 分 灰色 的 点 和 黑色 的 点 。 虽 然 整个 平面 的 颜色 都 比较 浅 ， 
但 是 中 间 还 是 隐约 有 一 条 分 界线 ， 这 说 明 这 个 模型 只 能 通过 直线 来 划分 平面 。 如 果 一 个 问 
题 可 以 通过 一 条 直线 来 划分 ， 那 么 线性 模型 也 是 可 以 用 来 解决 这 个 问题 的 。 图 4-3 显示 了 
一 个 可 以 通过 直线 划分 的 数据 。 
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图 4-3 ”使 用 线性 模型 解决 线性 可 分 问题 的 效果 


从 图 4-3 中 可 以 看 出 ， 在 线性 可 分 问题 中 ， 线 性 模型 就 能 很 好 区 分 不 同 颜色 的 点 。 因 
为 线性 模型 就 能 解决 线性 可 分 问题 ， 所 以 在 深度 学 习 的 定义 中 特意 强调 它 的 目的 为 解决 更 
加 复杂 的 问题 。 所 谓 复杂 问题 ， 至 少 是 无 法 通过 直线 〈 或 者 高 维 室 间 的 平面 ) 划分 的 。 在 
现实 世界 中 ， 绝 大 部 分 的 问题 都 是 无 法 线性 分 割 的 。 回 到 判断 零件 是 否 合格 的 问题 ， 如 果 
将 激活 函数 换 成 非 线 性 的 ,， 那么 可 以 得 到 如 图 4-4 所 示 的 结果 。 在 这 个 样 例 中 使 用 了 ReLU 
激活 函数 。 使 用 其 他 非 线性 激活 函数 也 可 以 得 到 类 似 的 效果 。 从 图 4-4 中 可 以 看 出 ， 当 加 
入 非 线性 的 元 素 之 后 ， 神 经 网 络 模型 就 可 以 很 好 地 区 分 不 同 颜色 的 点 了 。 


@ 4.1.2 小 节 将 详细 介绍 激活 函数 。 
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4-4 使 用 非 线性 模型 解决 线性 不 可 分 问题 的 效果 


4.1.2 激活 函数 实现 去 线性 化 


4.1.1 小 节 已 经 提 到 过 激活 函数 ， 并 在 样 例 中 看 到 了 它 “ 神 奇 ” 的 作用 。 在 这 一 个 小 节 
中 , 将 详细 介绍 激活 函数 是 如 何 工作 的 。 在 3.4.2 小 节 中 介绍 的 神经 元 结构 的 输出 为 所 有 输 
入 的 加 权 和 ， 这 导致 整个 神经 网 络 是 一 个 线性 模型 。 如 果 将 每 一 个 神经 元 (也 就 是 神经 网 
络 中 的 节点 ) 的 输出 通过 一 个 非 线 性 函数 , 那么 整个 神经 网 络 的 模型 也 就 不 再 是 线性 的 了 。 
这 个 非 线性 函数 就 是 激活 函数 。 图 4-5 显示 了 加 入 激活 函数 和 偏 置 项 之 后 的 神经 元 结构 。 


a DY xawi +b ut de 0 XiWi + b) 

二 日 
() Er et 
Wa 高 ~ 上 广 


X2W2 


图 4-5 ”加 入 偏 置 项 和 激活 函数 的 神经 元 结构 示意 图 
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下 面 的 公式 给 出 了 3.4.2 小 节 中 神经 网 络 结构 加 上 激活 函数 和 偏 置 项 后 的 前 向 传播 算 
法 的 数学 定义 : 
WY) We Wy 
WI? Wi2 Wi? 
= f(W Om + WY x2 + bh, WO + WDx2 + ba, WIS + Wi3x2 + b3]) 
=[f (WD + WY x + bh), f WO + Wx2 + ba), f VIG + WI3x2 + bs)] 
相 比 3.4.2 小 节 中 的 定义 ， 上 面 的 定义 主要 有 两 个 改变 。 第 一 个 改变 是 新 的 公式 中 增加 
了 偏 置 项 (bias)， 偏 置 项 是 神经 网 络 中 非常 常用 的 一 种 结构 。 第 二 个 改变 就 是 每 个 节点 的 
取 值 不 再 是 单纯 的 加 权 和 。 每 个 节点 的 输出 在 加 权 和 的 基础 上 还 做 了 一 个 非 线 性 变换 。 图 
4-6 显示 了 几 种 常用 的 非 线性 激活 函数 的 函数 图 像 。 


A =[ani,ar2,a3]= (xz 刺 @ +D)= | | b» bs]) 


10 10 





ReIU 函 数 : sigmoid 函 数 : tanh 函 数 : 
Ho = max(x 0) f(0) = 1CO =7 


1+e™* 十 6-2x 


一 2X 


图 4-6 常用 的 神经 网 络 激活 函数 的 函数 图 像 


从 图 4-6 中 可 以 看 出 ， 这 些 激活 函数 的 函数 图 像 都 不 是 一 条 直线 。 所 以 通过 这 些 激活 
函数 ， 每 一 个 节点 不 再 是 线性 变换 ， 于 是 整个 神经 网 络 模型 也 就 不 再 是 线性 的 了 。 图 4-7 
给 出 了 加 入 偏 置 项 和 ReLU 激活 函数 之 后 ，3.4.2 小 节 中 神经 网 络 的 结构 。 

从 图 4-7 中 可 以 看 出 ， 偏 置 项 可 以 被 表达 为 一 个 输出 永远 为 1 的 节点 。 下 面 的 公式 给 
出 了 这 个 新 的 神经 网 络 模型 前 向 传播 算法 的 计算 方法 。 

隐藏 层 推导 公式 : 

an=f (WO m+W Vx +b" )=f(0.7x0.2+0.9x0.3+(-0.5))=f(-0.09) = 0.09 

az=f(W Ox +WYx +b))= (0.7x0.1+0.9+(-0.5)x0.1)= f(-0.28)= 0.28 

aa = OO +WOx +b)=f(0.7x0.4+0.9x0.2+(-0.1)= f(0.36)=0.36 
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输出 层 推导 公式 ， 


Y= /( Wa + WO a + WO a + b?) =f(0.09x0.6+0.28x0.1+0.36x (~-0.2) +0.1) 


=/(0.054+0.028+(-0.072) +0.1) = ft01 1)=0.11 


一 

















图 4-7 加 入 偏 秆 项 和 激活 函数 的 神经 网 络 结构 图 


目前 TensorFlow 提供 了 7 种 不 同 的 非 线性 激活 函数 ， tf.nn.relu、 
其 中 比较 常用 的 几 个 。 当然 ， 


本 如何 通过 TensorFlow 实现 图 4- 


tf.sigmoid 和 tftanh 是 

TensorFlow 也 支持 使 用 自 己 定 义 的 激活 函数 。 以 下 代码 展 
7 中 神经 网 络 的 前 向 传播 算法 。 

as tf,nn.relul tf.matmul 

ys. bts nn relw (tf.matmul (ay 


从 上 面 的 代码 可 以 看 出 ， TensorFlow 可 以 很 好 地 支持 使 用 本 激活 函数 和 偏 置 项 的 神经 
网 络 。 


示 


Wi) + biases1) 
W2) + biases2) 
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4.1.3 多 层 网 络 解决 异 或 运算 


上 面 的 两 个 小 节 详 细 讲 解 了 线性 变换 的 问题 。 在 这 一 小 节 中 ， 将 通过 一 个 实际 问题 来 
讲解 深度 学 习 的 另外 一 个 重要 性 质 一 一 多 层 变换 。 在 神经 网 络 的 发 展 史上 ， 一 个 很 重要 的 
问题 就 是 异 或 问题 。 神经 网 络 的 理论 模型 由 Warren McCulloch 和 Walter Pitts 在 1943 年 首 
次 提出 ， 并 在 1958 年 由 Frank Rosenblatt 提出 了 感知 机 〈perceptron) 模型 ， 从 数学 上 完成 
了 对 神经 网 络 的 精确 建 模 。 感知 机 可 以 简单 地 理解 为 单 层 的 神经 网 络 ， 图 4-5 中 给 出 的 神 
经 元 结构 就 是 感知 机 的 网 络 结构 。 

感知 机 会 先 将 输入 进行 加 权 和 ， 然 后 再 通过 4.1.2 小 节 中 介绍 的 激活 函数 最 后 得 到 输 
出 。 这 个 结构 就 是 一 个 没有 隐藏 层 的 神经 网 络 。 在 上 个 世纪 60 年 代 , 神经 网 络 作 为 对 人 类 
大 脑 的 模拟 算法 受到 了 很 多 关注 。 然而 到 了 1969 年 ，Marvin Minsky 和 Seymour Papert 在 
Perceptrons: An Introduction to Computational Geometry 二 书 中 提出 感知 机 是 无 法 模拟 异 或 
运算 的 ?。 这 里 略 去 复杂 的 数学 求证 过 程 ， 而 是 通过 TensorFlow 游乐 场 来 模拟 一 下 通过 感 
知 机 的 网 络 结构 来 模拟 异 或 运算 。 图 4-8 显示 了 通过 TensorFlow 游乐 场 训练 500 轮 之 后 的 











四 ~ ag 人 ha Pup ar Rngvwairafhe rt -sm 
000,500 03 ae None Cassificsion 
| 
| DATA PEATURES 4 = 0 HIDOENLAYERS 
| Yeh due oo nmen pretins 四 一 -一 
ou wt 0 E07 Yo 1 fned n> 
: “加 
“图 
aa of ram 











图 4-8 ”使 用 单 层 神 经 网 络 解决 异 或 问题 的 效果 图 


图 4-8 使 用 了 一 个 能 够 模拟 异 或 运算 的 数据 集 。 异 或 运算 直观 来 说 就 是 如 果 两 个 输入 
的 符号 相同 时 (同时 为 正 或 者 同时 为 负 ) 则 输出 为 0， 否则 〔 一 个 正 一 个 负 ) 输出 为 1。 从 





@ 参见 : Minsky, M.; S. Papert. Perceptrons: An Introduction to Computational Geometry [D. MIT Press,1969, 
ISBN 0-262-63022-2. 
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图 4-8 中 可 以 看 出 ， 左 下 角 《 两 个 输入 同时 为 负 ) 和 右上 和 角 〈 两 个 输入 同时 为 正 ) 的 点 为 
黑色 ， 而 另外 两 个 象限 的 点 为 灰色 ， 这 就 符合 异 或 运算 的 计算 规则 。 图 4-8 中 将 隐藏 层 的 
层 数 设置 为 0， 这 样 就 模拟 了 感知 机 的 模型 。 通 过 500 轮训 练 之 后 ， 可 以 看 到 这 个 感知 机 
模型 并 不 能 将 两 种 不 同 颜色 的 点 分 开 ， 也 就 是 说 感知 机 无 法 模拟 蜡 或 运算 的 功能 。 

当 加 入 隐藏 层 之 后 ， 异 或 问题 就 可 以 得 到 很 好 地 解决 。 图 4-9 显示 了 一 个 有 4 个 节点 
的 隐藏 层 的 神经 网 络 在 训练 500 轮 之 后 的 效果 。 在 图 4-9 中 ， 除 了 可 以 看 到 最 右边 的 输出 
节点 可 以 很 好 地 区 分 不 同 颜色 的 点 外 ， 更 加 有 意思 的 是 ， 隐 藏 层 的 四 个 节点 中 ， 每 个 节点 
都 有 一 个 角 是 黑色 的 。 这 四 个 隐藏 节点 可 以 被 认为 代表 了 从 输入 特征 中 抽取 的 更 高 维 的 特 
征 。 比 如 第 一 个 节点 可 以 大 致 代表 两 个 输入 的 逻辑 与 操作 的 结果 〈 当 两 个 输入 都 为 正 数 时 
该 节点 输出 为 正 数 )。 从 这 个 例子 中 可 以 看 到 ,深层 神经 网 络 实际 上 有 组 合 特征 提取 的 功能 。 
这 个 特性 对 于 解决 不 易 提取 特征 向 量 的 问题 (比如 图 片 识别 、 语 音 识别 等 ) 有 很 大 帮助 。 
这 也 是 深度 学 习 在 这 些 问 题 上 更 加 容易 取得 突破 性 进展 的 原因 。 








图 4-9 ”使 用 深层 神经 网 络 解决 异 或 问题 


4.2 损失 函数 定义 


4.1 节 介 绍 了 深度 学 习 的 一 些 性 质 , 并 且 通 过 这 些 性 质 讲解 了 如 何 构造 一 个 更 加 有 效 的 
神经 网 络 。 本 节 将 具体 介绍 如 何 刻画 不 同 神经 网 络 模型 的 效果 。 神 经 网 络 模型 的 效果 以 及 
优化 的 目标 是 通过 损失 函数 (loss function) 来 定义 的 。 在 4.2.1 小 节 中 ， 将 讲解 适用 于 分 类 问 
题 和 回归 问题 的 经 典 损失 函数 ， 并 通过 TensorFlow 实现 这 些 损失 函数 。 然 后 在 4.2.2 小 节 
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中 ， 将 介绍 如 何 根据 具体 问题 定义 损失 函数 ， 并 通过 具体 样 例 来 说 明 不 同 损失 函数 对 训练 
结果 的 影响 。 


4.2.1 经 典 损失 图 数 


分 类 问题 和 回归 问题 是 监督 学 习 的 两 大 种 类 。 这 一 小 节 将 分 别 介绍 分 类 问题 和 回归 问 
题 中 使 用 到 的 经 典 损失 函数 。 分 类 问题 希望 解决 的 是 将 不 同 的 样本 分 到 事先 定义 好 的 类 别 
中 。 比 如 在 第 3 章 中 介绍 的 判断 一 个 零件 是 否 合格 的 问题 就 是 一 个 二 分 类 问题 。 在 这 个 问 
题 中 ， 需 要 将 样本 (也 就 是 零件 ) 分 到 合格 或 是 不 合格 两 个 类 别 中 。 在 4.3 节 中 将 要 介绍 
的 手写 体 数字 识别 问题 可 以 被 归纳 成 一 个 十 分 类 问题 。 手 写 体 数字 识别 问题 可 以 被 看 成 将 
一 张 包含 了 数字 的 图 片 分 类 到 0~9 这 10 个 数字 中 。 

在 解决 判断 零件 是 否 合格 的 二 分 类 问题 时 ， 在 第 3 章 中 定义 过 一 个 有 单个 输出 节点 的 
神经 网 络 。 当 这 个 节点 的 输出 越 接近 0 时 ， 这 个 样本 越 有 可 能 是 不 合格 的 ; 反之 如 果 输 出 
越 接 近 1, 则 这 个 样本 越 有 可 能 是 合格 的 。 为 了 给 出 具体 的 分 类 结果 , 可 以 取 0.5 作为 阔 值 。 
凡是 输出 大 于 0.5 的 样本 都 认为 是 合格 的 ,小 于 0.5 的 则 是 不 合格 的 。 然 而 这 样 的 做 法 并 不 
容易 直接 推广 到 多 分 类 的 问题 。 虽 然 设 置 多 个 阔 值 在 理论 上 是 可 能 的 ， 但 在 解决 实际 问题 
的 过 程 中 一 般 不 会 这 么 处 理 。 

通过 神经 网 络 解 决 多 分 类 问题 最 常用 的 方法 是 设置 n 个 输出 节点 ， 其 中 为 类 别 的 个 
数 。 对 于 每 一 个 样 例 ， 神 经 网 络 可 以 得 到 的 一 个 n 维 数组 作为 输出 结果 。 数 组 中 的 每 一 个 
维度 (也 就 是 每 一 个 输出 节点 〉 对 应 一 个 类 别 。 在 理想 情况 下 ， 如 果 一 个 样本 属于 类 别 k， 
那么 这 个 类 别 所 对 应 的 输出 节点 的 输出 值 应 该 为 1， 而 其 他 节点 的 输出 都 为 0。 以 识别 数字 
1 为 例 ， 神 经 网 络 模型 的 输出 结果 越 接 近 [0,1,0,0,0,0,0,0,0,0] 越 好 。 那 么 如 何 判 断 一 个 输出 
向 量 和 期 望 的 向 量 有 多 接近 昵 ?交叉 (cross entropy) 是 常用 的 评判 方法 之 一 。 交 又 炉 刻 
画 了 两 个 概率 分 布 之 间 的 距离 ， 它 是 分 类 问题 中 使 用 比较 广 的 一 种 损失 函数 。 

交叉 炳 是 一 个 信息 论 中 的 概念 ， 它 原本 是 用 来 估算 平均 编码 长 度 的 。 在 本 书 中 不 过 多 
讨论 它 原本 的 意义 , 而 会 通过 它 的 公式 以 及 具体 的 样 例 来 讲解 它 对 于 评估 分 类 效果 的 意义 。 
给 定 两 个 概率 分 布 p 和 g， 通 过 gq 来 表示 pp 的 交叉 炳 为 : 

H(p,q)=-2 p(x)log q(x) 


注意 交叉 炉 刻 画 的 是 两 个 概率 分 布 之 间 的 距离 ， 然 而 神经 网 络 的 输出 却 不 一 定 是 一 个 
概率 分 布 。 概 率 分 布 刻 画 了 不 同事 件 发 生 的 概率 。 当 事件 总 数 是 有 限 的 情况 下 ， 概 率 分 布 
函数 p(X =x) 满足 : 

Vx p(X=x)e[l0,1] 有 2 pK=7)=1 
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也 就 是 说 ， 任 意 事 件 发 生 的 概率 都 在 0 和 1 之 间 ， 且 总 有 某 一 个 事件 发 生 〈( 概 率 的 和 
为 1)。 如 果 将 分 类 问题 中 “一 个 样 例 属于 某 一 个 类 别 ” 看 成 一 个 概率 事件 ， 那 么 训练 数据 
的 正确 答案 就 符合 一 个 概率 分 布 。 因 为 事件 “一 个 样 例 属 于 不 正确 的 类 别 ” 的 概率 为 0， 
而 “一 个 样 例 属 于 正确 的 类 别 ” 的 概率 为 1。 如 何 将 神经 网 络 前 向 传播 得 到 的 结果 也 变 成 
概率 分 布 呢 ? Softmax 回归 就 是 一 个 非常 常用 的 方法 。 

Softmax 回归 本 身 可 以 作为 一 个 学 习 算 法 来 优化 分 类 结果 ,但 在 TensorFlow 中 , Softmax 
回归 的 参数 被 去 掉 了 ， 它 只 是 一 层 额 外 的 处 理 层 ， 将 神经 网 络 的 输出 变 成 一 个 概率 分 布 。 
图 4-10 展示 了 加 上 了 Softmax 回归 的 神经 网 络 结构 图 。 





输入 层 隐藏 层 原始 输出 层 softmax 层 最 终 箱 出 层 


一 一 一 人 


一 一 一 各 





一 一 一 各 


一 一 一 和 








图 4-10 通过 Softmax 层 将 神经 网 络 输出 变 成 一 个 概率 分 布 
假设 原始 的 神经 网 络 输出 为 yi. yp. … ya， 那么 经 过 Softmax 回归 处 理 之 后 的 输出 为 : 
天 


> e 
Softmax(y)i: = yi = py 
e 
j=l 


从 以 上 公式 中 可 以 看 出 ， 原 始 神经 网 络 的 输出 被 用 作 置 信 度 来 生成 新 的 输出 ， 而 新 的 
输出 满足 概率 分 布 的 所 有 要 求 。 这 个 新 的 输出 可 以 理解 为 经 过 神经 网 络 的 推导 ， 一 个 样 例 
为 不 同类 别 的 概率 分 别 是 多 大 。 这 样 就 把 神经 网 络 的 输出 也 变 成 了 一 个 概率 分 布 ， 从 而 可 
以 通过 交叉 箭 来 计算 预测 的 概率 分 布 和 真实 答案 的 概率 分 布 之 问 的 距离 了 。 

从 交叉 粮 的 公式 中 可 以 看 到 交叉 业 函 数 不 是 对 称 的 〈 及 (p,q)* 瑞 (q,p) )， 它 刻画 的 是 
通过 概率 分 布 g 来 表达 概率 分 布 p 的 困难 程度 。 因 为 正确 答案 是 希望 得 到 的 结果 ， 所 以 当 
交叉 烂 作为 神经 网 络 的 损失 函数 时 , p 代表 的 是 正确 答案 ,gq 代表 的 是 预测 值 。 交 叉 粒 刻画 
的 是 两 个 概率 分 布 的 距离 ， 也 就 是 说 交叉 粒 值 越 小 ， 两 个 概率 分 布 越 接近 。 下 面 将 给 出 两 
个 具体 样 例 来 直观 地 说 明 通过 交叉 箭 可 以 判断 预测 答案 和 真实 答案 之 间 的 距离 。 假 设 有 一 
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个 三 分 类 问题 ， 某 个 样 例 的 正确 答案 是 〈1,0,0)。 某 模型 经 过 Softmax po 
是 (0.5,0.4,0.1)， 那 么 这 个 预测 和 正确 答案 之 间 的 交 义 炳 为 : 
H((1,0,0),(0.5,0.4,0.D))=—(1xlog0.5+0xlog0.4+0xl0g0.1) ~ 0.3 
如 果 另 外 一 个 模型 的 预测 是 (0.8,0.1,0.1)， 那 么 这 个 预测 值 和 真实 值 之 间 的 交叉 入 是 : 
H((1,0,0),(0.8,0.1,0.1))=-(1xlog0.8+0xl0og0.1+0xi0g0.1)~0.1 
从 直观 上 可 以 很 容易 地 知道 第 二 个 预测 答案 要 优 于 第 一 个 。 通 过 交叉 箭 计算 得 到 的 结 
果 也 是 一 致 的 (第 二 个 交叉 炉 的 值 更 小 )。 在 3.4.5 小 节 中 ， 己 经 通过 TensorFlow 实现 过 交 
叉 米 ， 其 代码 实现 如 下 : 


其 中 y_ 代 表 正 确 结果 ，y 代表 预测 结果 。 本 小 节 将 更 加 具体 的 讲解 这 个 计算 过 程 。 这 
一 行 代码 包含 了 四 个 不 同 的 TensorFlow 运算 。 通 过 tf.clip_by_value 函数 可 以 将 一 个 张 量 中 
的 数值 限制 在 一 个 范围 之 内 ， 这 样 可 以 避免 一 些 运 算 错误 (比如 log0 是 无 效 的)。 下 面 给 
出 了 使 用 tfclip_ by value 的 简单 样 例 。 

在 上 面 的 样 例 中 可 以 看 到 ， 小 于 2.5 的 数 都 被 换 成 了 2.5， 而 大 于 4:5 的 数 都 被 换 成 了 
4.5。 这 样 通过 tf.clip_by_value 函数 就 可 以 保证 在 进行 1og 运算 时 ， 不 会 出 现 log0 这 样 的 错 


误 或 者 大 于 1 的 概率 。 第 二 个 运算 是 引 log 函数 ,这 个 函数 完成 了 对 张 量 中 所 有 元 素 依次 求 
对 数 的 功能 。 以 下 代码 中 给 出 一 个 简单 的 样 例 。 








第 三 个 运算 是 乘法 ， 在 实现 交叉 米 的 代码 中 直接 将 两 个 矩阵 通过 “*” 操 作 相 乘 。 这 个 
操作 不 是 矩阵 乘法 ， 而 是 元 素 之 间 直 接 相 乘 。 和 矩阵 乘法 需要 使 用 萎 matmul 函数 来 完成 。 下 
面 给 出 了 这 两 个 操作 的 区 别 : 
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vl*v2 的 结果 是 每 个 位 置 上 对 应 元 素 的 乘积 。 比 如 〈1:1) 这 个 元 素 的 值 是 : 
vl[l,1]x v2[1,1]=1x$5=5 
(1,2) 这 个 元 素 的 值 是 : 
vl[l,2]x v2[1,2]=2x6=12 
以 此 类 推 。 而 给 matmul 函数 完成 的 是 矩阵 乘法 运算 ， 所 以 〈1,1〉 这 个 元 素 的 值 是 : 
vl[l,1]x v2[1,1]+ vl[l,2]x v2[2,1] =l1x5+2x7=19 

通过 上 面 这 三 个 运算 完成 了 对 于 每 一 个 样 例 中 的 每 一 个 类 别 交 叉 炉 p(x) log q(x) 的 计 
算 。 这 三 步 计 算得 到 的 结果 是 一 个 nxm 的 二 维 矩 阵 ， 其 中 为 一 个 batch 中 样 例 的 数量 ， 
m 为 分 类 的 类 别 数 量 。 根 据 交 又 烂 的 公式 ， 应 该 将 每 行 中 的 m 个 结果 相 加 得 到 所 有 样 例 的 
交叉 焙 ， 然 后 再 对 这 n 行 取 平均 得 到 一 个 batch 的 平均 交叉 米 。 但 因为 分 类 问题 的 类 别 数 
量 是 不 变 的 ， 所 以 可 以 直接 对 整个 矩阵 做 平均 而 并 不 改变 计算 结果 的 意义 。 这 样 的 方式 可 
以 使 整个 程序 更 加 简洁 。 以 下 代码 简单 展示 了 tfreduce_mean 函数 的 使 用 方法 。 


v= tf.constant ([[1.0, 2.0, 3.0],[4.0,5.0,6.01]) 


大 jh . 


print tf.reduce mean(v) .eval () 输出 3.5 

因为 交叉 炉 一 般 会 与 softmax 回归 一 起 使 用 ， 所 以 TensorFlow 对 这 两 个 功能 进行 了 统 
一 封装 ， 并 提供 了 萎 nn.softmax cross_entropy_with logits 函数 。 比 如 可 以 直接 通过 下 面 的 
代码 来 实现 使 用 了 softmax 回归 之 后 的 交叉 彤 损失 函数 : 

cross entropy = tf.nn.softmax cross entropy with logits(y, y_) 

其 中 y 代表 了 原始 神经 网 络 的 输出 结果 ， 而 y_ 给 出 了 标准 答案 。 这 样 通过 一 个 命令 就 
可 以 得 到 使 用 了 Softmax 回归 之 后 的 交叉 和 。 在 只 有 一 个 正确 答案 的 分 类 问题 中 ， 
TensorFlow 提供 了 tnn.sparse_ softmax cross entropy_ with logits 函数 来 进一步 加 速 计 算 过 
程 。 在 第 5 章 中 将 提供 使 用 这 个 函数 的 完整 样 例 。 

与 分 类 问题 不 同 ， 回 归 问 题解 决 的 是 对 具体 数值 的 预测 。 比 如 房价 预测 、 销 量 预测 等 
都 是 回归 问题 。 这 些 问 题 需 要 预测 的 不 是 一 个 事先 定义 好 的 类 别 ， 而 是 一 个 任意 实数 。 解 
决 回归 问题 的 神经 网 络 一 般 只 有 一 个 输出 节点 ， 这 个 节点 的 输出 值 就 是 预测 值 。 对 于 回归 
问题 ， 最 常用 的 损失 函数 是 均 方 误差 (MSE，mean squared error) ”。 它 的 定义 如 下 : 


2 
. f=1(yi — yi) 
MB) 0 


其 足 为 一 个 batch 中 第 i 个 数据 的 正确 答案 , 而 y 为 神经 网 络 给 出 的 预测 值 。 以 下 代 
码 展示 了 如 何 通过 TensorFlow 实现 均 方 误差 损失 函数 : 
mse = tf.reduce mean(tf.square(ly - y)) 


@ 均 方 误差 也 是 分 类 问题 中 常用 的 一 种 损失 函数 。 
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其 中 y 代表 了 神经 网 络 的 输出 答案 , y_ 代 表 了 标准 答案 。 类似 4.2.1 小 节 中 介绍 的 乘法 
操作 ， 这 里 的 减法 运算 “-” 也 是 两 个 矩阵 中 对 应 元 素 的 减法 。 


4.2.2” 自 定义 损失 耳 数 


TensorFlow 不 仅 支 持 经 典 的 损失 函数 ， 还 可 以 优化 任意 的 自 定义 损失 函数 。 本 小 节 将 
介绍 如 何 通 过 自 定义 损失 函数 的 方法 , 使 得 神经 网 络 优 化 的 结果 更 加 接近 实际 问题 的 需求 。 
在 下 面 的 篇 幅 中 将 以 预测 商品 销量 问题 为 例 。 

在 预测 商品 销量 时 ， 如 果 预 测 多 了 《预测 值 比 真 实 销量 大 )， 商 家 损失 的 是 生产 商品 的 
成 本 ;而 如 果 预 测 少 了 《预测 值 比 真 实 销量 小 )， 损 失 的 则 是 商品 的 利润 。 因 为 一 般 商品 的 
成 本 和 商品 的 利润 不 会 严格 相等 , 所 以 使 用 4.2.1 小 节 中 介绍 的 均 方 误差 损失 函数 就 不 能 够 
很 好 地 最 大 化 销售 利润 。 比 如 如 果 一 个 商品 的 成 本 是 1 元 , 但 是 利润 是 10 元 ， 那 么 少 预测 
一 个 就 少 挣 10 元 ; 而 多 预测 一 个 才 少 挣 1 元 。 如 果 神 经 网 络 模 型 最 小 化 的 是 均 方 误差 ， 那 
么 很 有 可 能 此 模型 就 无 法 最 大 化 预期 的 利润 。 为 了 最 大 化 预期 利润 ， 需 要 将 损失 函数 和 利 
润 直接 联系 起 来 。 注 意 损失 函数 定义 的 是 损失 ， 所 以 要 将 利润 最 大 化 ， 定 义 的 损失 函数 应 
该 刻画 成 本 或 者 代价 。 下 面 的 公式 给 出 了 一 个 当 预 测 多 于 真实 值 和 预测 少 于 真实 值 时 有 不 
同 损失 系数 的 损失 函数 : 

a(x—y) Xx>y 


Loss(y,y) = .10,7), f (x,y) es XSy 


和 均 方 误差 公式 类 似 , y; 为 一 个 batch 中 第 i 个 数据 的 正确 答案 ，yyi 为 神经 网 络 得 到 的 
预测 值 ，a 和 8 是 常量 。 比 如 在 上 面 介绍 的 销量 预测 问题 中 ,a 就 等 于 10〔 正 确 答案 多 于 
预测 答案 的 代价 )， 而 5b 等 于 1 正确 答案 少 于 预测 答案 的 代价 )。 通 过 对 这 个 自 定义 损失 
函数 的 优化 ， 模 型 提供 的 预测 值 更 有 可 能 最 大 化 收益 。 在 TensorFlow 中 ， 可 以 通过 以 下 代 
码 来 实现 这 个 损失 函数 。 

1oss = tf.reduce Dv select (EE. ‘greater (v1, 志 世 六 

MSI Sn a a a 

上 面 的 代码 用 到 了 tf.greater 和 tfselect 来 实现 选择 操作 。tf.greater 的 输入 是 两 个 张 量 ， 
此 函数 会 比较 这 两 个 输入 张 量 中 每 一 个 元 素 的 大 小 ， 并 返回 比较 结果 。 当 给 greater 的 输入 
张 量 维度 不 一 样 时 , TensorFlow 会 进行 类 似 NumPy 广播 操作 (broadcasting) 的 处 理 ”。tf.select 
函数 有 三 个 参数 。 第 一 个 为 选择 条 件 根据 ， 当 选择 条 件 为 True 时 ， 计 select 函数 会 选择 第 
二 个 参数 中 的 值 , 否则 使 用 第 三 个 参数 中 的 值 。 注意 共 select 函数 判断 和 选择 都 是 在 元 素 级 


@ http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html 中 有 关于 广播 操作 〈broadcasting) 的 具体 讲解 。 
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别 进行 ， 以 下 代码 展示 了 给 select 函数 和 全 greater 函数 的 用 法 。 





在 定义 了 损失 函数 之 后 ， 下 面 将 通过 一 个 简单 的 神经 网 络 程序 来 讲解 损失 函数 对 模型 
训练 结果 的 影响 。 在 下 面 这 个 程序 中 ， 实 现 了 一 个 拥有 两 个 输入 节点 、 一 个 输出 节点 ， 没 
有 隐藏 层 的 神经 网 络 。 这 个 程序 的 主体 流程 和 3.4.5 小 节 中 给 出 来 的 样 例 基本 一 致 , 但 用 到 
了 上 面 定义 的 损失 函数 。 
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运行 上 面 的 代码 会 得 到 wi 的 值 为 [1.01934695, 1.04280889]， 也 就 是 说 得 到 的 预测 函数 
是 x+txz， 这 要 比 1.02x1+1.04x， 大 ， 因 为 在 损失 函数 中 指定 预测 少 了 的 损失 更 大 
(loss_less>loss_more)。 如 果 将 loss_less 的 值 调 整 为 1，loss_more 的 值 调整 为 10， 那 么 wi 
的 值 将 会 是 [0.95525807，0.9813394]。 也 就 是 说 ， 在 这 样 的 设置 下 ， 模 型 会 更 加 偏向 于 预 
测 少 一 点 。 而 如 果 使 用 均 方 误差 作为 损失 函数 ， 那 么 wi 会 是 [0:97437561，1.0243336]。 使 
用 这 个 损失 函数 会 尽量 让 预测 值 离 标准 答案 更 近 。 通 过 这 个 样 例 可 以 感受 到 ， 对 于 相同 的 
神经 网 络 ， 不 同 的 损失 函数 会 对 训练 得 到 的 模型 产生 重要 影响 。 


4.3 神经 网 络 优化 算法 


本 节 将 更 加 具体 地 介绍 如 何 通过 反 向 传播 算法 〈backpropagation ) 和 梯度 下 降 算 法 
(gradient decent 调整 神经 网 络 中 参数 的 取 值 .梯度 下 降 算法 主要 用 于 优化 单个 参数 的 取 值 ， 
而 反 向 传播 算法 给 出 了 一 个 高 效 的 方式 在 所 有 参数 上 使 用 梯度 下 降 算法 ， 从 而 使 神经 网 络 
模型 在 训练 数据 上 的 损失 函数 尽 可 能 小 。 反 向 传播 算法 是 训练 神经 网 络 的 核心 算法 ， 它 可 
以 根据 定义 好 的 损失 函数 优化 神经 网 络 中 参数 的 取 值 ， 从 而 使 神经 网 络 模型 在 训练 数据 集 
上 的 损失 函数 达到 一 个 较 小 值 。 神 经 网 络 模 型 中 参数 的 优化 过 程 直接 决定 了 模型 的 质量 ， 
是 使 用 神经 网 络 时 非常 重要 的 一 步 。 在 本 节 中 ， 将 主要 介绍 神经 网 络 优化 过 程 的 基本 概念 
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和 主要 思想 , 而 略 去 算法 的 数学 推导 和 证 明 ”。 本 节 将 给 出 一 个 具体 的 样 例 来 解释 使 用 梯度 
下 降 算法 优化 参数 取 值 的 过 程 。 在 下 面 的 4.4 节 中 ， 将 继续 介绍 的 神经 网 络 优化 过 程 中 可 
能 遇 到 的 问题 和 解决 方法 ， 掌 握 本 节 内 容 可 以 帮助 更 好 地 理解 这 些 优化 方法 。 

假设 用 9 表示 神经 网 络 中 的 参数 ，J(9) 表 示 在 给 定 的 参数 取 值 下 ， 训 练 数据 集 上 损失 
函数 的 大 小 ， 那 么 整个 优化 过 程 可 以 抽象 为 寻找 一 个 参数 9 ， 使 得 .7(9) 最小。 因为 目前 没 
有 一 个 通用 的 方法 可 以 对 任意 损失 函数 直接 求解 最 佳 的 参数 取 值 ， 所 以 在 实践 中 ， 梯 度 下 
降 算 法 是 最 常用 的 神经 网 络 优化 方法 。 梯 度 下 降 算法 会 迭代 式 更 新 参数 9 ， 不 断 沿 着 梯度 
的 反方 向 让 参数 朝 着 总 损失 更 小 的 方向 更 新 。 图 4-11 展示 了 梯度 下 降 算法 的 原理 。 


J(9) 


图 4-11 梯度 下 降 算法 思想 示意 图 

图 4-11 中 x 轴 表示 参数 8 的 取 值 ，y 轴 表 示 损 失 函 数 .J(9) 的 值 。 图 4-11 的 曲线 表示 了 
在 参数 9 取 不 同 值 时 ， 对 应 损失 函数 .J(9) 的 大 小 。 假设 当前 的 参数 和 损失 值 对 应 图 4-11 中 
小 圆 点 的 位 置 ， 那 么 梯度 下 降 算法 会 将 参数 向 x 轴 左 侧 移动 ， 从 而 使 得 小 圆 点 朝 着 箭头 的 
方向 移动 。 参 数 的 梯度 可 以 通过 求 偏 导 的 方式 计算 ,对 于 参数 9 其 梯度 为 厂 J(0) 。 有 了 
梯度 ， 还 需要 定义 一 个 学 习 率 7 2 (learning rate) 来 定义 每 次 参数 更 新 的 幅度 。 从 直观 上 理 
解 ， 可 以 认为 学 习 率 定义 的 就 是 每 次 参数 移动 的 幅度 。 通 过 参数 的 梯度 和 学 习 率 ， 参 数 更 
新 的 公式 为 : 


0 
6， =0, -7——/\( 0, 
+1 755 ) 


下 面 给 出 了 一 个 具体 的 例子 来 说 明 梯 度 下 降 算法 是 如 何 工作 的 。 假 设 要 通过 梯度 下 降 


人 @ 更 多 关于 反 向 传播 算法 的 细节 可 以 参见 : Rumelhart D E，Hinton G E, Williams R J. Learning 
representations by back-propagating errors [M]Neurocomputing: foundations of research. MIT Press, 1986.。 
@ 学 习 率 的 设置 将 在 4.4.1 小 有 中 详细 介绍 。 
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算法 来 优化 参数 x， 使 得 损失 函数 J()=x 的 值 尽量 小 。 梯 度 下 降 算 法 的 第 一 步 需 要 随机 产 
生 一 个 参数 x 的 初始 值 ， 然 后 再 通过 梯度 和 学 习 率 来 更 新 参数 x 的 取 值 。 在 这 个 样 例 中 ， 


参数 x 的 梯度 为 v= 中 =2x ， 那 么 使 用 梯度 下 降 算法 每 次 对 参数 x 的 更 新 公式 为 
xntl=xn 一 9Vn。 假 设 参数 的 初始 值 为 5, 学 习 率 为 0.3, 那么 这 个 优化 过 程 可 以 总 结 为 表 4-1。 


表 4-1 使 用 梯度 下 降 算法 优化 函数 .J(x) =x? 





从 表 4-1 中 可 以 看 出 ， 经 过 5 次 迭代 之 后 ， 参 数 x 的 值 变 成 了 0.0512， 这 个 和 参数 最 
优 值 0 已 经 比较 接近 了 。 虽 然 这 里 给 出 的 是 一 个 非常 简单 的 样 例 ， 但 是 神经 网 络 的 优化 过 
程 也 是 可 以 类 推 的 。 神 经 网 络 的 优化 过 程 可 以 分 为 两 个 阶段 ， 第 一 个 阶段 先 通过 前 向 传播 
算法 计算 得 到 预测 值 ， 并 将 预测 值 和 真实 值 做 对 比 得 出 两 者 之 间 的 差距 。 然 后 在 第 二 个 阶 
段 通过 反 向 传播 算法 计算 损失 函数 对 每 一 个 参数 的 梯度 ， 再 根据 梯度 和 学 习 率 使 用 梯度 下 
降 算法 更 新 每 一 个 参数 。 本 书 将 略 去 反 向 传播 算法 具体 的 实现 方法 和 数学 证 明 ， 有 兴趣 的 
读者 可 以 参考 David Rumelhart、Geoffrey Hinton 和 Ronald Williams 教授 发 表 的 论文 Learning 
representations by back-propagating errors®s 

需要 注意 的 是 ,梯度 下 降 算 法 并 不 能 保证 被 优化 的 函数 达到 全 局 最 优 解 。 如 图 4-12 所 
示 ， 图 中 给 出 的 函数 就 有 可 能 只 能 得 到 局 部 最 优 解 而 不 是 全 局 最 优 解 。 在 小 黑 点 处 ， 损 失 
函数 的 偏 导 为 0， 于 是 参数 就 不 会 再 进一步 更 新 。 在 这 个 样 例 中 ， 如 果 参 数 x 的 初始 值 落 
在 右 侧 深 色 的 区 间 中 ， 那 么 通过 梯度 下 降 得 到 的 结果 都 会 落 到 小 黑 点 代表 的 局 部 最 优 解 。 
只 有 当 x 的 初始 值 落 在 左 侧 浅 色 的 区 间 时 梯度 下 降 才 能 给 出 全 局 最 优 答案 。 由 此 可 见 在 训 
练 神经 网 络 时 ， 参 数 的 初始 值 会 很 大 程度 影响 最 后 得 到 的 结果 。 只 有 当 损 失 函 数 为 凸 函数 
时 ， 梯 度 下 降 算法 才能 保证 达到 全 局 最 优 解 。 


D Rumelhart D E; Hinton G E, Williams R J. Learning representations by back-propagating errors [MI]. 
Neurocomputing: foundations of research. MIT Press, 1986. 
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图 4-12 ”梯度 下 降 算法 得 不 到 全 局 最 小 值 的 样 例 


除了 不 一 定 能 达到 全 局 最 优 外 ， 梯 度 下 降 算法 的 另外 一 个 问题 就 是 计算 时 间 太 长 。 因 
为 要 在 全 部 训练 数据 上 最 小 化 损失 ， 所 以 损失 函数 (6) 是 在 所 有 训练 数据 上 的 损失 和 。 这 
样 在 每 一 轮 迭 代 中 都 需要 计算 在 全 部 训练 数据 上 的 损失 函数 。 在 海量 训练 数据 下 ， 要 计算 
所 有 训练 数据 的 损失 函数 是 非常 消耗 时 间 的 。 为 了 加 速 训练 过 程 ， 可 以 使 用 随机 梯度 下 降 
的 算法 stochastic gradient descent)。 这 个 算法 优化 的 不 是 在 全 部 训练 数据 上 的 损失 函数 ， 
而 是 在 每 一 轮 迭 代 中 ， 随 机 优化 某 一 条 训练 数据 上 的 损失 函数 。 这 样 每 一 轮 参数 更 新 的 束 
度 就 大 大 加 快 了 。 因 为 随机 梯度 下 降 算法 每 次 优化 的 只 是 某 一 条 数据 上 的 损失 函数 ， 所 以 
它 的 问题 也 非常 明显 : 在 某 一 条 数据 上 损失 函数 更 小 并 不 代表 在 全 部 数据 上 损失 函数 更 小 ， 
于 是 使 用 随机 梯度 下 降 优 化 得 到 的 神经 网 络 甚至 可 能 无 法 达到 局 部 最 优 。 

为 了 综合 梯度 下 降 算法 和 随机 梯度 下 降 算法 的 优 缺点 ， 在 实际 应 用 中 一 般 采 用 这 两 个 
算法 的 折 中 一 一 每 次 计算 一 小 部 分 训练 数据 的 损失 函数 。 这 一 小 部 分 数据 被 称 之 为 一 个 
batch。 通 过 矩阵 运算 ， 每 次 在 一 个 batch 上 优化 神经 网 络 的 参数 并 不 会 比 单个 数据 慢 太 多 。 
另 一 方面 ， 每 次 使 用 一 个 batch 可 以 大 大 减 小 收敛 所 需要 的 迭代 次 数 ， 同 时 可 以 使 收敛 到 
的 结果 更 加 接近 梯度 下 降 的 效果 。 以 下 代码 给 出 了 在 TensorFlow 中 如 何 实现 神经 网 络 的 训 
练 过 程 。 在 本 书 的 所 有 样 例 中 ， 神 经 网 络 的 训练 都 大 臻 遵循 以 下 过 程 。 
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# 过 代 的 更 新 参数 。 
for i in range (STEPS): 
# 准备 batch size 个 训练 数据 。 一 般 将 所 有 训练 数据 随机 打 乱 之 后 再 选取 可 以 得 到 


# 更 好 的 优化 效果 。 
Current X/ Current Y= , 
sess.run(train step, feed dict={x: current X, Y_ : current Y}) 


4.4 神经 网 络 进一步 优化 


4.3 节 介 绍 了 优化 神经 网 络 的 基本 算法 , 本 节 将 继续 介绍 神经 网 络 优化 过 程 中 可 能 遇 到 
的 一 些 问题 ， 以 及 解决 这 些 问 题 的 常用 方法 。4.4.1 小 节 将 介绍 通过 指数 衰减 的 方法 设置 梯 
度 下 降 算法 中 的 学 习 率 。 通 过 指数 衰减 的 学 习 率 即 可 以 让 模型 在 训练 的 前 期 快速 接近 较 优 
解 ， 又 可 以 保证 模型 在 训练 后 期 不 会 有 太 大 的 波动 ， 从 而 更 加 接近 局 部 最 优 。 然 后 4.4.2 小 
节 将 介绍 过 拟 合 问题 。 在 训练 复杂 神经 网 络 模型 时 ， 过 拟 合 是 一 个 非常 常见 的 问题 。 这 一 
小 节 将 具体 介绍 这 个 问题 的 影响 以 及 解决 这 个 问题 的 主要 方法 。 最 后 ,4.4.3 小 节 将 介绍 滑动 
平均 模型 。 滑 动 平均 模型 会 将 每 一 轮 迭 代 得 到 的 模型 综合 起 来 ， 从 而 使 得 最 终 得 到 的 模型 
更 加 健壮 (robust)。 


4.4.1 ”学习 率 的 设置 


4.3 节 介 绍 了 在 训练 神经 网 络 时 , 需要 设置 学 习 率 (learning rate) 控制 参数 更 新 的 速度 。 
本 小 节 将 进一步 介绍 如 何 设 置 学 习 率 。 学 习 率 决定 了 参数 每 次 更 新 的 幅度 。 如 果 幅 度 过 大 ， 
那么 可 能 导致 参数 在 极 优 值 的 两 侧 来 回 移动 。4.3 节 介 绍 过 优化 7(x) =x? 函数 的 样 例 。 如 果 
在 优化 中 使 用 的 学 习 率 为 1， 那 么 整个 优化 过 程 将 会 如 表 4-2 所 示 。 


表 4-2 ” 当 学 习 率 过 大 时 ， 梯 度 下 降 算法 的 运行 过 程 
人 
| 
| 


从 上 面 的 样 例 可 以 看 出 ， 无 论 进行 多 少 轮 迭 代 ， 参 数 将 在 5 和 -5 之 间 播 摆 ， 而 不 会 收 
敛 到 一 个 极 小 值 。 相 反 ， 当 学 习 率 过 小 时 ， 虽 然 能 保证 收敛 性 ， 但 是 这 会 大 大 降低 优化 速 
度 。 我 们 会 需要 更 多 轮 的 迭代 才能 达到 一 个 比较 理想 的 优化 效果 。 比 如 当 学 习 率 为 0.001 
时 ， 和 迭代 5 次 之 后 , x 的 值 将 为 4.95。 要 将 x 训练 到 0.05 需要 大 约 2300 轮 ; 而 当 学 习 率 为 
0.3 时 ， 只 需要 5 轮 就 可 以 达到 。 综 上 所 述 ， 学 习 率 既 不 能 过 大 ， 也 不 能 过 小 。 为 了 解决 设 
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定 学 习 率 的 问题 ，TensorFlow 提供 了 一 种 更 加 灵活 的 学 习 率 设置 方法 指数 衰减 法 。 
给 train.exponential_decay 函数 实现 了 指数 衰减 学 习 率 。 通 过 这 个 函数 ， 可 以 先 使 用 较 大 的 学 
习 率 来 快速 得 到 一 个 比较 优 的 解 ， 然 后 随 着 迭代 的 继续 逐步 减 小 学 习 率 ， 使 得 模型 在 训练 后 
期 更 加 稳定 。exponential decay 函数 会 指数 级 地 减 小 学 习 率 ， 它 实现 了 以 下 代码 的 功能 : 









ms 


Cee 一 本 rs 








c= 


其 中 decayed_learning_rate 为 每 一 轮 优化 时 使 用 的 学 习 率 ，learning_rate 为 事先 设 定 的 
初始 学 习 率 ，decay rate 为 衰减 系数 ，decay_steps 为 衰减 速度 。 图 4-13 显示 了 随 着 迭代 轮 
数 的 增加 ,学习 率 逐步 降低 的 过 程 .tftrain.exponential_decay 函数 可 以 通过 设置 参数 staircase 
选择 不 同 的 衰减 方式 。staircase 的 默认 值 为 False， 这 时 学 习 率 随 迭 代 轮 数 变 化 的 趋势 如 图 
4-13 中 灰色 曲线 所 示 。 当 staircase 的 值 被 设置 为 True 时 ，global_step / decay_steps 会 被 转 
化 成 整数 。 这 使 得 学 习 率 成 为 一 个 阶梯 函数 (staircase function)。 图 4-13 中 黑色 曲线 显示 
了 阶梯 状 的 学 习 率 。 在 这 样 的 设置 下 ，decay_steps 通常 代表 了 完整 的 使 用 一 遍 训练 数据 所 
需要 的 迭代 轮 数 。 这 个 迭代 轮 数 也 就 是 总 训练 样本 数 除 以 每 一 个 batch 中 的 训练 样本 数 。 

这 种 设置 的 常用 场景 是 每 完整 地 过 完 一 遍 训练 数据 ， 学 习 率 就 减 小 一 次 。 这 可 以 使 得 训练 
数据 集中 的 所 有 数据 对 模型 训练 有 相等 的 作用 。 当 使 用 连续 的 指数 衰减 学 习 率 时 ， 不 同 的 
训练 数据 有 不 同 的 学 习 率 ， 而 当 学 习 率 减 小 时 ， 对 应 的 训练 数据 对 模型 训练 结果 的 影响 也 就 
小 了 。 下 面 给 出 了 一 段 代码 来 示范 如 何在 TensorFlow 中 使 用 tftrain.exponential decay 函数 。 








一 一 防 梯 状 豪 减 学 习 率 。 一 一 连续 豪 减 学 习 率 


1 51 101 151 201 251 301 35t+ 401 451 501 551 601 651 701 751 801 851 901 951 








训练 法 代 轮 数 


i 
4-13 ”指数 衰减 学 习 率 随 着 迭代 轮 数 的 变化 图 
(图 中 使 用 的 基础 学 习 率 为 0.1， 豪 减 率 为 0.9， 训 减速 度 为 50) 
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上 面 这 段 代码 中 设 定 了 初始 学 习 率 为 0.1， 因 为 指定 了 staircase=True， 所 以 每 训练 100 
轮 后 学 习 率 乘 以 0.96。 一 般 来 说 初始 学 习 率 、 衰 减 系数 和 衰减 速度 都 是 根据 经 验 设置 的 。 
而 且 损失 函数 下 降 的 速度 和 迭代 结束 之 后 总 损失 的 大 小 没有 必然 的 联系 。 也 就 是 说 并 不 能 
通过 前 几 轮 损失 函数 下 降 的 速度 来 比较 不 同 神经 网 络 的 效果 。 


4.4.2 过 拟 合 问题 


上 面 的 4.2 和 4.3 节 讲述 了 如 何在 训练 数据 上 优化 一 个 给 定 的 损失 函数 。 然 而 在 真实 的 
应 用 中 想 要 的 并 不 是 让 模型 尽量 模拟 训练 数据 的 行为 ， 而 是 希望 通过 训练 出 来 的 模型 对 未 
知 的 数据 给 出 判断 。 模 型 在 训练 数据 上 的 表现 并 不 一 定 代表 了 它 在 未 知 数据 上 的 表现 。 本 
小 节 将 介绍 的 过 拟 合 问题 就 是 可 以 导致 这 个 差距 的 一 个 很 重要 因素 。 所 谓 过 拟 合 ， 指 的 是 
当 一 个 模型 过 为 复杂 之 后 ， 它 可 以 很 好 地 “记忆 ”每 一 个 训练 数据 中 随机 噪音 的 部 分 而 坊 
记 了 要 去 “学 习 ” 训 练 数 据 中 通用 的 趋势 。 举 一 个 极端 的 例子 ， 如 果 一 个 模型 中 的 参数 
比 训练 数据 的 总 数 还 多 ， 那 么 只 要 训练 数据 不 冲突 ， 这 个 模型 完全 可 以 记 住所 有 训练 数 
据 的 结果 从 而 使 得 损失 函数 为 0。 可 以 直观 地 想象 一 个 包含 n 个 变量 和 nn 个 等 式 的 方程 组 ， 
当 方程 不 冲突 时 ， 这 个 方程 组 是 可 以 通过 数学 的 方法 来 求解 的 。 然而， 过度 拟 合 训练 数 
据 中 的 随机 噪音 虽然 可 以 得 到 非常 小 的 损失 函数 ， 但 是 对 于 未 知 数据 可 能 无 法 做 出 可 靠 
的 判断 。 

图 4-14 显示 了 模型 训练 的 三 种 不 同情 况 。 在 第 一 种 情况 下 ， 由 于 模型 过 于 简单 ， 无 法 
刻画 问题 的 趋势 。 第 二 个 模型 是 比较 合理 的 ， 它 既 不 会 过 于 关注 训练 数据 中 的 噪音 ， 又 能 
够 比较 好 地 刻画 问题 的 整体 趋势 。 第 三 个 模型 就 是 过 拟 合 了 ， 虽 然 第 三 个 模型 完美 地 划分 
了 不 同形 状 的 点 ， 但 是 这 样 的 划分 并 不 能 很 好 地 对 未 知 数据 做 出 判断 ， 因 为 它 过度 拟 合 了 
训练 数据 中 的 噪音 而 忽视 了 问题 的 整体 规律 。 比 如 图 中 浅 色 方 框 “ 口 ”更 有 可 能 和 “X” 
属于 同一 类 ， 而 不 是 根据 图 上 的 划分 和 “O” 属 于 同一 类 。 
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图 4-14 神经 网 络 模型 训练 的 三 种 情况 


为 了 避免 过 拟 合 问题 ， 一 个 非常 常用 的 方法 是 正则 化 〈regularization)。 正 则 化 的 思想 
就 是 在 损失 函数 中 加 入 刻画 模型 复杂 程度 的 指标 。 假 设 用 于 刻画 模型 在 训练 数据 上 表现 的 
损失 函数 为 J(9)， 那么 在 优化 时 不 是 直接 优化 .J 了 (9) ,而 是 优化 J(0)+4R(w)。 其 中 R(w) 刻 
画 的 是 模型 的 复杂 程度 ， 而 和 表示 模型 复杂 损失 在 总 损失 中 的 比例 。 注 意 这 里 8 表示 的 是 一 
个 神经 网 络 中 所 有 的 参数 ， 它 包括 边 上 的 权重 w 和 偏 置 项 5b。 一 般 来 说 模型 复杂 度 只 由 权重 
w 决定 。 常 用 的 刻画 模型 复杂 度 的 函数 R(w) 有 两 种 ， 一 种 是 L1 正则 化 ， 计 算 公式 是 : 
R(w)=|w = 2 


另 一 种 是 L2 正则 化 ， 计 算 公 式 是 : 
ROO=| = Eh 


无 论 是 哪 一 种 正则 化 方式 ， 基 本 的 思想 都 是 希望 通过 限制 权重 的 大 小 ， 使 得 模型 不 能 
任意 拟 合 训 练 数据 中 的 随机 噪音 。 但 这 两 种 正则 化 的 方法 也 有 很 大 的 区 别 。 首 先 ，L1 正则 
化 会 让 参数 变 得 更 稀疏 , 而 L2 正则 化 不 会 。 所 谓 参 数 变 得 更 稀疏 是 指 会 有 更 多 的 参数 变 为 
0， 这 样 可 以 达到 类 似 特征 选取 的 功能 。 之 所 以 L2 正则 化 不 会 让 参数 变 得 稀疏 的 原因 是 当 
参数 很 小 时 ， 比 如 0.001， 这 个 参数 的 平方 基本 上 就 可 以 忽略 了 ， 于 是 模型 不 会 进一步 将 这 
个 参数 调整 为 0。 其 次 ，Z1 正则 化 的 计算 公式 不 可 导 ， 而 Z2 正则 化 公式 可 导 。 因 为 在 优 
化 时 需要 计算 损失 函数 的 偏 导 数 , 所 以 对 含有 Z2 正则 化 损失 函数 的 优化 要 更 加 简洁 。 优化 
带 L1 正则 化 的 损失 函数 要 更 加 复杂 ， 而 且 优化 方法 也 有 很 多 种 。 在 实践 中 ， 也 可 以 将 L1 
正则 化 和 ZL2 正则 化 同时 使 用 : 

R(w)= ahwil+ (a)w 
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4.2 小 节 提 到 过 TensorFlow 可 以 优化 任意 形式 的 损失 函数 ， 所 以 TensorFlow 自然 也 可 
以 优化 带 正则 化 的 损失 函数 。 以 下 代码 给 出 了 一 个 简单 的 带 52 正则 化 的 损失 函数 定义 : 


ee 
nn 







在 上 面 的 程序 中 ，loss 为 定义 的 损失 函数 ， 它 由 两 个 部 分 组 成 。 第 一 个 部 分 是 4.2.1 小 
节 中 介绍 的 均 方 误差 损失 函数 ， 它 刻画 了 模型 在 训练 数据 上 的 表现 。 第 二 个 部 分 就 是 正则 
化 ， 它 防止 模型 过 度 模 拟 训 练 数据 中 的 随机 噪音 。lambda 参数 表示 了 正则 化 项 的 权重 ， 也 
就 是 公式 J(0)+4R(w) 中 的 4 。w 为 需要 计算 正则 化 损失 的 参数 。TensorFlow 提供 了 
tfcontrib.layers.1]2_regularizer 函数 ， 它 可 以 返回 一 个 函数 ， 这 个 函数 可 以 计算 一 个 给 定 参数 
的 22 正则 化 项 的 值 。 类 似 的 , tfcontrib.layers.11_regularizer 可 以 计算 L1 正则 化 项 的 值 。 以 
下 代码 给 出 了 使 用 这 两 个 函数 的 样 例 : 






在 简单 的 神经 网 络 中 ， 这 样 的 方式 就 可 以 很 好 地 计算 带 正则 化 的 损失 函数 了 。 但 当 神 
经 网 络 的 参数 增多 之 后 ， 这 样 的 方式 首先 可 能 导致 损失 函数 loss 的 定义 很 长 ， 可 读 性 差 且 
容易 出 错 。 但 更 主要 的 是 ， 当 网 络 结构 复杂 之 后 定义 网 络 结构 的 部 分 和 计算 损失 函数 的 部 
分 可 能 不 在 同一 个 函数 中 ， 这 样 通过 变量 这 种 方式 计算 损失 函数 就 不 方便 了 。 为 了 解决 这 
个 问题 ， 可 以 使 用 TensorFlow 中 提供 的 集合 (collection)。 集 合 的 概念 在 3.1 节 中 介绍 过 ， 
它 可 以 在 一 个 计算 图 (tfGraph〉 中 保存 一 组 实体 (比如 张 量 )。 以 下 代码 给 出 了 通过 集合 
计算 一 个 5 层 神 经 网 络 带 L2 正则 化 的 损失 函数 的 计算 方法 。 





Q@ TensorFlow 会 将 L2 的 正则 化 损失 值 除 以 2 使 得 求 导 得 到 的 结果 更 加 简洁 。 
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从 上 面 的 代码 可 以 看 出 通过 使 用 集合 的 方法 在 网 络 结构 比较 复杂 的 情况 下 可 以 使 代码 
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的 可 读 性 更 高 。 上 面 的 代码 给 出 的 是 一 个 只 有 5 层 的 全 连接 网 络 , 在 更 加 复杂 的 网 络 结构 中 ， 
使 用 这 样 的 方式 来 计算 损失 函数 将 大 大 增强 代码 的 可 读 性 。 


4.4.3 ”滑动 平均 模型 


这 一 个 小 节 将 介绍 另外 一 个 可 以 使 模型 在 测试 数据 上 更 健壮 (robust) 的 方法 一 一 滑动 
平均 模型 。 在 采用 随机 梯度 下 降 算 法 训练 神经 网 络 时 ， 使 用 滑动 平均 模型 在 很 多 应 用 中 都 
可 以 在 一 定 程度 提高 最 终 模型 在 测试 数据 上 的 表现 。 - 

在 TensorFlow 中 提供 了 tftrain.ExponentialMovingAverage 来 实现 滑动 平均 模型 。 在 初 
始 化 ExponentialMovingAverage 时 ， 需 要 提供 一 个 衰减 率 (decay)。 这 个 衰减 率 将 用 于 控制 
模型 更 新 的 速度 。ExponentialMovingAverage 对 每 一 个 变量 会 维护 一 个 影子 变量 〈shadow 
variable)， 这 个 影子 变量 的 初始 值 就 是 相应 变量 的 初始 值 ， 而 每 次 运行 变量 更 新 时 ， 影 子 
变量 的 值 会 更 新 为 : 

shadow_variable = decayxshadow_variable +(1 — decay) x variable 

其 中 shadow_variable 为 影子 变量 ，variable 为 待 更 新 的 变量 ，decay 为 衰减 率 。 从 公式 
中 可 以 看 到 ，decay 决定 了 模型 更 新 的 速度 ，decay 越 大 模型 越 趋 于 稳定 。 在 实际 应 用 中 ， 
decay 一 般 会 设 成 非常 接近 1 的 数 〈 比 如 0.999 或 0.9999)。 为 了 使 得 模型 在 训练 前 期 可 以 
更 新 得 更 快 ，ExponentialMovingAverage 还 提供 了 num_updates 参数 来 动态 设置 decay 的 大 
小 。 如果 在 ExponentialMovingAverage 初始 化 时 提供 了 num_updates 参数 , 那么 每 次 使 用 的 


衰减 率 将 是 : 
min di 1+num_ updates | 
10+num updates 
下 面 通 过 一 段 代 码 来 解释 ExponentialMovingAverage 是 如 何 被 使 用 的 。 
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上 面 的 代码 给 出 了 ExponentialMovingAverage 的 简单 样 例 ， 在 第 5 章 中 将 给 出 在 真实 
应 用 中 使 用 滑动 平均 的 样 例 。 

小 结 

本 章 详 细 讲解 了 使 用 神经 网 络 解决 实际 问题 过 程 中 的 各 个 环节 。 首 先 4.1 节 介绍 了 设 


计 神 经 网 络 结构 时 的 两 个 总 体 原则 一 一 非 线性 结构 和 多 层 结构 。 这 一 节 先 说 明了 深度 学 习 
基本 上 就 是 深层 神经 网 络 的 代名词 。 然 后 通过 对 深度 学 习 定义 中 两 个 性 质 的 详细 讲解 ， 指 
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出 了 非 线 性 结构 和 多 层 结构 是 解决 复杂 问题 的 必要 方法 。 这 一 节 通 过 具体 的 例子 讲解 了 线 
性 模型 和 浅 层 模型 的 局 限 性 。 

然后 4.2 节 介 绍 了 如 何 设计 损失 函数 。 神 经 网 络 是 一 个 优化 问题 ， 而 损失 函数 就 刻画 
了 神经 网 络 需 要 优化 的 目标 。 这 一 节 讲 解 了 分 类 问题 和 回归 问题 中 比较 常用 的 损失 函数 ， 
同时 也 介绍 了 如 何 设 计 更 加 贴近 实际 问题 需求 的 损失 函数 。 在 这 一 节 中 通过 一 个 实际 样 例 
讲解 了 不 同 损失 函数 对 神经 网 络 参 数 优化 结果 的 影响 。 

接着 4.3 节 介 绍 了 优化 神经 网 络 时 最 常用 的 梯度 下 降 算 法 和 反 向 传播 算法 。 在 这 一 节 
中 ， 主 要 讲解 了 梯度 下 降 算 法 的 基本 概念 和 主体 思想 ， 并 给 出 了 通过 梯度 下 降 算 法 优化 一 
个 简单 函数 J(x)=x? 的 样 例 。 通 过 这 个 例子 , 读者 可 以 对 神经 网 络 的 优化 过 程 有 一 个 大 概 的 、 
直观 的 了 解 。 这 一 节 还 介绍 了 随机 梯度 下 降 和 使 用 batch 的 随机 梯度 下 降 算 法 ， 并 给 出 了 
使 用 TensorFlow 优化 神经 网 络 的 计算 框架 。 

最 后 4.4 节 介 绍 了 三 个 神经 网 络 优化 过 程 中 可 能 会 遇 到 的 问题 ， 并 介绍 了 解决 这 些 问 
题 的 常用 方法 。 首 先 4.4.1 小 节 介 绍 了 通过 指数 衰减 的 方式 来 设置 学 习 率 。 通 过 这 种 方法 ， 
既 可 以 加 快 训练 初期 的 训练 速度 ， 同 时 在 训练 后 期 又 不 会 出 现 损 失 函 数 在 极 小 值 周 围 徘 徊 
往返 的 情况 。 然 后 4.4.2 小 节 介 绍 了 通过 正则 化 解决 过 度 拟 合 的 问题 。 当 损失 函数 仅 取决 于 
在 训练 数据 上 的 拟 合 程度 时 ， 神 经 网 络 模型 有 可 能 只 是 “记忆 ”了 所 有 的 训练 数据 ， 而 无 
法 很 好 地 对 未 知 数据 做 出 判断 。 正 则 化 通过 在 损失 函数 中 加 入 对 模型 复杂 程度 的 因素 ， 可 
以 有 效 避 免 过 拟 合 问 题 , 最 后 4.4.3 小 节 介 绍 了 使 用 滑动 平均 模型 让 最 后 得 到 的 模型 在 未 知 
数据 上 更 加 健壮 。 

这 一 章 讲解 了 使 用 神经 网 络 模型 时 需要 考虑 的 主要 问题 。 从 神经 网 络 模型 结构 的 设计 、 
损失 函数 的 设计 、 神 经 网 络 的 优化 和 神经 网 络 进一步 调 优 四 个 方面 覆盖 了 设计 和 优化 神经 
网 络 过程 中 可 能 遇 到 的 主要 问题 。 在 下 面 的 第 5 章 中 ， 将 通过 一 个 具体 的 问题 来 验证 本 章 
中 提 到 的 神经 网 络 优化 方法 。 同 时 也 将 给 出 通过 TensorFlow 实现 神经 网 络 的 最 佳 实践 样 例 
程序 。 
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第 4 章 介绍 了 训练 神经 网 络 模型 时 需要 考虑 的 主要 问题 以 及 解决 这 些 问 题 的 常用 方 
法 。 这 一 章 将 通过 一 个 实际 问题 来 验证 第 4 章 中 介绍 的 解决 方法 。 本 章 将 使 用 的 数据 集 是 
MNIST 手写 体 数字 识别 数据 集 。 在 很 多 深度 学 习 教 程 中 ， 这 个 数据 集 都 会 被 当 作 第 一 个 案 
例 。 在 验证 神经 网 络 优化 方法 的 同时 ， 本 章 也 会 介绍 使 用 TensorFlow 训练 神经 网 络 的 最 佳 
实践 。 

首先 在 5.1 节 中 将 介绍 MNIST 手写 体 数字 识别 数据 集 , 并 且 给 出 TensorFlow 程序 处 理 
MNIST 数 据 "。 然 后 5.2 节 将 对 比 第 4 章 中 提 到 的 神经 网 络 结构 设计 和 参数 优化 的 不 同方 法 ， 
从 实际 的 问题 中 验证 不 同 优化 方法 带 来 的 性 能 提升 。 接 着 在 5.3 和 5.4 两 节 中 将 指出 5.2 节 
中 TensorFlow 程序 实现 神经 网 络 的 不 足 之 处 , 并 介绍 TensorFlow 的 最 佳 实践 来 解决 这 些 不 
足 。 其 中 ，5.3 节 将 介绍 TensorFlow 变量 重用 的 问题 和 变量 的 命名 空间 ; 5.4 节 将 介绍 如 何 
将 一 个 神经 网 络 模型 持久 化 ， 使 得 之 后 可 以 直接 使 用 训练 好 的 模型 。 最 后 在 5.5 节 中 将 整 
合 5.3 和 5.4 节 中 介绍 的 TensorFlow 最 佳 实践 ,通过 一 个 完整 的 TensorFlow 程序 解决 MNIST 
问题 。 


5.1 MNIST 数据 处 理 


MNIST 是 一 个 非常 有 名 的 手写 体 数字 识别 数据 集 ， 在 很 多 资料 中 ， 这 个 数据 集 都 会 被 
用 作 深度 学 习 的 入 门 样 例 。 本 节 中 将 大 致 讲解 这 个 数据 集 的 基本 情况 ， 并 介绍 TensorFlow 
对 MNIST 数据 集 做 的 封装 。TensorFlow 的 封装 让 使 用 MNIST 数据 集 变 得 更 加 方便 ,MNIST 
数据 集 是 NIST 数据 集 的 一 个 子 集 ， 它 包含 了 60000 张 图 片 作为 训练 数据 ，10000 张 图 片 作 


@ TensorFlow 提供 了 封装 好 的 MNIST 数据 集 处 理 类 , 在 这 里 将 直接 使 用 这 个 类 。 关于 如 何 处 理 图 像 数据 
将 在 第 7 章 中 详细 介绍 。 
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为 测试 数据 。 在 MNIST 数据 集中 的 每 一 张 图 片 都 代表 了 0~9 中 的 一 个 数字 。 图片 的 大 小 都 
为 28x28, 且 数 字 都 会 出 现在 图 片 的 正中 间 。 图 5-1 展示 了 一 张 数字 图 片 及 和 它 对 应 的 像素 
和 窍 阵 。 
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图 5-1 数字 图 片 及 其 像素 矩阵 


在 图 5-1 的 左 侧 显示 了 一 张 数字 1 的 图 片 ,而 右 侧 显示 了 这 个 图 片 所 对 应 的 像素 矩阵 "。 
在 Yann LeCun 教授 的 网 站 中 http://yann.lecun.com/exdb/mnist) 对 MNIST 数据 集 做 出 了 详 
细 的 介绍 。MNIST 数据 集 提 供 了 4 个 下 载 文件 ， 表 5-1 归纳 了 下 载 文件 中 提供 的 内 容 。 


表 5-1 MNIST 数据 下 载 地 址 和 内 容 


了 











虽然 这 个 数据 集 只 提供 了 训练 和 测试 数据 ， 但 是 为 了 验证 模型 训练 的 效果 ， 一 般 会 从 
训练 数据 中 划分 出 一 部 分 数据 作为 验证 (validation) 数据 。 在 5.2.2 小 节 中 将 更 加 详细 地 介 
绍 验证 数据 的 作用 。 为 了 方便 使 用 ，TensorFlow 提供 了 一 个 类 来 处 理 MNIST 数据 。 这 个 类 
会 自动 下 载 并 转化 MNIST 数据 的 格式 ,将 数据 从 原始 的 数据 包 中 解析 成 训练 和 测试 神经 网 
络 时 使 用 的 格式 。 下 面 给 出 了 使 用 这 个 函数 的 样 例 程序 。 







@ MNIST 数据 集中 图 片 的 像素 矩阵 大 小 为 28x28, 但 为 了 更 清楚 地 展示 ， 图 5-1 右 侧 显示 的 为 4X14 甜 
阵 。 
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从 上 面 的 代码 中 可 以 看 出 ， 通 过 input_data.read_data_sets 函数 生成 的 类 会 自动 将 
MNIST 数据 集 划分 为 train、validation 和 test 三 个 数据 集 ， 其 中 train 这 个 集合 内 有 55000 
张 图 片 ，validation 集合 内 有 5000 张 图 片 ， 这 两 个 集合 组 成 了 MNIST 本 身 提供 的 训练 数据 
集 。test 集 合 内 有 10000 张 图 片 ， 这 些 图 片 都 来 自 于 MNIST 提供 的 测试 数据 集 。 处 理 后 的 
每 一 张 图 片 是 一 个 长 度 为 784 的 一 维 数组 ， 这 个 数组 中 的 元 素 对 应 了 图 片 像素 矩阵 中 的 每 
一 个 数字 (28x28=784)。 因 为 神经 网 络 的 输入 是 一 个 特征 向 量 ， 所 以 在 此 把 一 张 二 维 图 像 
的 像素 矩阵 放 到 一 个 一 维 数组 中 可 以 方便 TensorFlow 将 图 片 的 像素 矩阵 提供 给 神经 网 络 的 
输入 层 。 像素 矩阵 中 元 素 的 取 值 范围 为 [0, 1]， 它 代 表 了 颜色 的 深浅 。 其 中 0 表示 白色 背景 
(background ), 1 表示 黑色 前 景 (foreground ) 。 为 了 方便 使 用 随机 梯度 下 降 ， 
input data.read data_sets 函数 生成 的 类 还 提供 了 mnist.train.next_batch 函数 ， 它 可 以 从 所 有 
的 训练 数据 中 读 取 一 小 部 分 作为 一 个 训练 batch。 以 下 代码 显示 了 如 何 使 用 这 个 功能 。 
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5.2 ”神经 网 络 模 型 训练 及 不 同 模型 结果 对 比 


本 节 将 利用 MNIST 数据 集 实现 并 研究 第 4 章 中 介绍 的 神经 网 络 模型 设计 及 优化 的 方 
法 。 首先， 在 5.2.1 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 这 个 程 
序 整合 了 第 4 章 中 介绍 的 所 有 优化 方法 , 训练 好 的 神经 网 络 模型 在 MNIST 测试 数据 集 上 可 
以 达到 98.4% 左 右 的 正确 率 。 然后 5.2.2 小 节 将 介绍 验证 数据 集 在 训练 神经 网 络 过 程 中 的 作 
用 。 这 一 小 节 将 通过 5.2.1 小 节 中 得 到 的 实验 数据 来 证 明 , 神经 网 络 在 验证 数据 集 上 的 表现 
可 以 近似 地 作为 评价 不 同 神经 网 络 模型 的 标准 或 者 决定 迭代 轮 数 的 依据 ,最 后 5.2.3 小 节 将 
通过 MNIST 数据 集 验 证 第 4 章 中 介绍 的 每 一 个 优化 方法 。 通 过 在 MNIST 数据 集 上 的 实验 
可 以 看 到 ， 这 些 优化 方法 都 可 以 或 多 或 少 地 提高 神经 网 络 的 分 类 正确 率 。 


5.2.1 ”TensorFlow 训练 神经 网 络 


这 一 小 节 将 给 出 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 手写 体 数字 识别 问题 。 这 
一 小 节 中 给 出 的 程序 实现 了 第 4 章 中 介绍 的 神经 网 络 结构 设计 和 训练 优化 的 所 有 方法 。 在 
给 出 具体 的 代码 之 前 ， 先 回顾 一 下 第 4 章 中 提 到 的 主要 概念 。 在 神经 网 络 的 结构 上 ， 深 度 
学 习 一 方面 需要 使 用 激活 函数 实现 神经 网 络 模型 的 去 线性 化 ， 另 一 方面 需要 使 用 一 个 或 多 
个 隐藏 层 使 得 神经 网 络 的 结构 更 深 ， 以 解决 复杂 问题 。 在 训练 神经 网 络 时 ， 第 4 章 介绍 了 
使 用 带 指数 衰减 的 学 习 率 设置 、 使 用 正则 化 来 避免 过 度 拟 合 ， 以 及 使 用 滑动 平均 模型 来 使 
得 最 终 模 型 更 加 健壮 。 以 下 代码 给 出 了 一 个 在 MNIST 数据 集 上 实现 这 些 功 能 的 完整 的 
TensorFlow 程序 
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运行 上 面 的 程序 ， 将 得 到 类 似 下 面 的 输出 结果 ”: 





人 @ 因为 神经 网 络 模型 训练 过 程 中 的 随机 因素 ， 读 者 不 会 得 到 一 模 一 样 的 结果 。 
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After 28000 training stepi(s)7 validation aceuracy using averagemodel is 0.985 
After 29000 training step (s), validation accuracy using average model is 0.985 
After 29999 training step (s), validation accuracy using average model is 0.985 
After 30000 training step(s), test accuracy on average model is 0.984 


从 上 面 的 结果 可 以 看 出 ， 在 训练 初期 ， 随 着 训练 的 进行 ， 模 型 在 验证 数据 集 上 的 表现 
越 来 越 好 。 从 第 4000 轮 开始 ， 模 型 在 验证 数据 集 上 的 表现 开始 波动 ， 这 说 明 模型 已 经 接近 
极 小 值 了 ， 记 以 欠 代 也 就 可 以 结束 了 。 下 面 的 5.2.2 小 节 将 详细 介绍 验证 数据 集 的 作用 。 


5.2.2 ”使 用 验证 数据 集 判断 模型 效果 


在 5.2.1 小 节 给 出 了 使 用 神经 网 络 解 决 MNIST 问题 的 完整 程序 。 在 这 个 程序 的 开始 设 
置 了 初始 学 习 率 、 学 习 率 衰减 率 、 隐 藏 层 节点 数量 、 和 迭代 轮 数 等 7 种 不 同 的 参数 。 那 么 如 
何 设置 这 些 参数 的 取 值 呢 ? 在 大 部 分 情况 下 ， 配 置 神 经 网 络 的 这 些 参数 都 是 需要 通过 实验 
来 调整 的 。 虽 然 一 个 神经 网 络 模型 的 效果 最 终 是 通过 测试 数据 来 评判 的 ， 但 是 我 们 不 能 直 
接 通过 模型 在 测试 数据 上 的 效果 来 选择 参数 。 使 用 测试 数据 来 选取 参数 可 能 会 导致 神经 网 
络 模型 过 度 拟 合 测试 数据 ， 从 而 失去 对 未 知 数据 的 预 判 能 力 。 因 为 一 个 神经 网 络 模型 的 最 
终 目 标 是 对 未 知 数据 提供 判断 ， 所 以 为 了 估计 模型 在 未 知 数据 上 的 效果 ， 需 要 保证 测试 数 
据 在 训练 过 程 中 是 不 可 见 的 。 只 有 这 样 才能 保证 通过 测试 数据 评估 出 来 的 效果 和 在 真实 应 
用 场景 下 模型 对 未 知 数 据 预 判 的 效果 是 接近 的 。 于 是 ， 为 了 评测 神经 网 络 模型 在 不 同 参数 
下 的 效果 ， 一 般 会 从 训练 数据 中 抽取 一 部 分 作为 验证 数据 。 使 用 验证 数据 就 可 以 评判 不 同 
参数 取 值 下 模型 的 表现 。 除 了 使 用 验证 数据 集 ， 还 可 以 采用 交叉 验证 (cross validation ) 的 
方式 来 验证 模型 效果 。 但 因为 神经 网 络 训 练 时 间 本 身 就 比较 长 ， 采 用 cross validation 会 花 
费 大 量 时 间 。 所 以 在 海量 数据 的 情况 下 ， 一 般 会 更 多 地 采用 验证 数据 集 的 形式 来 评测 模型 
的 效果 。 

在 本 小 节 中 ， 为 了 说 明 验 证 数据 在 一 定 程度 上 可 以 作为 模型 效果 的 评判 标准 ， 我 们 将 
对 比 在 不 同 迭 代 轮 数 的 情况 下 ， 模 型 在 验证 数据 和 测试 数据 上 的 正确 率 。 为 了 同时 得 到 同 
一 个 模型 在 验证 数据 和 测试 数据 上 的 正确 率 , 可 以 在 每 1000 轮 的 输出 中 加 入 在 测试 数据 集 
上 的 正确 率 。 在 5.2.1 小 节 给 出 的 代码 中 加 入 以 下 代码 ， 就 可 以 得 到 每 1000 轮 迄 代 后 ， 使 
用 了 滑动 平均 的 模型 在 验证 数据 和 测试 数据 上 的 正确 率 。 

# 计算 滑动 平均 模型 在 测试 数据 和 验证 数据 上 的 正确 率 。 
validate acc = sess.run (accuracy, feed Qict=validate "feed) 
test acc = sess.run(accuracy, feed dict=test feed) 
# 输出 正确 率 信息 。 
- Print ("After %d training 2 (Gy ed accuracy using i 


"model is $g, test aceuracy using ; average model is %g" 名 
(i, validate accy test acco)) 
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图 52 给 出 了 通过 上 面 代码 得 到 的 每 1000 轮滑 动 平均 模型 在 不 同 数据 集 上 的 正确 率 曲 
线 。 图 5-2 中 灰色 的 曲线 表示 随 着 迭代 轮 数 的 增加 ， 模 型 在 验证 数据 上 的 正确 率 ; 而 黑色 
的 曲线 表示 了 在 测试 数据 上 的 正确 率 。 从 图 5-2 中 可 以 看 出 ， 虽然 这 两 条 曲线 不 会 完全 重 
合 ， 但 是 这 两 条 曲线 的 趋势 基本 一 样 ， 而 且 他 们 的 相关 系数 〈correlation coefficient) 大 于 
0.9999。 这 意味 着 在 MNIST 问题 上 ， 完 全 可 以 通过 模型 在 验证 数据 上 的 表现 来 判断 一 个 模 
型 的 优 劣 。 





a NS 全 一 二 7 





正确 率 


一 一 验证 数据 集 上 正确 率 
一 一 测试 数据 集 上 正确 率 

站 
站 四 - 和 迭代 轮 数 | 
图 5-2 “不同 迭代 轮 数 下 滑动 平均 模型 在 验证 数据 集 和 测试 数据 集 上 的 正确 率 











当然 ,以 上 结论 是 针对 MNIST 这 个 数据 集 的 ， 对 于 其 他 问题 ， 还 需要 具体 问题 具体 分 

析 。 不 同 问题 的 数据 分 布 不 一 样 ， 如 果 验 证 数据 分 布 不 能 很 好 地 代表 测试 数据 分 布 ， 那 么 

模型 在 这 两 个 数据 集 上 的 表现 就 有 可 能 不 一 样 。 所 以, 验证 数据 的 选取 方法 是 非常 重要 的 ， 

- 般 来 说 选取 的 验证 数据 分 布 越 接近 测试 数据 分 布 ， 模 型 在 验证 数据 上 的 表现 越 可 以 体现 

模型 在 测试 数据 上 的 表现 。 但 通过 本 小 节 中 介绍 的 实验 ， 至 少 可 以 说 明 通过 神经 网 络 在 验 
证 数据 上 的 效果 来 选取 模型 的 参数 是 一 个 可 行 的 方案 。 


5.2.3 ”不同 模型 效果 比较 


本 小 节 将 通过 MNIST 数 据 集 来 比较 第 4 章 中 提 到 的 不 同 优化 方法 对 神经 网 络 模型 正确 
率 的 影响 。 本 小 节 将 使 用 神经 网 络 模型 在 MNIST 测试 数据 集 上 的 正确 率 作为 评价 不 同 优化 
方法 的 标准 。 在 本 小 节 中 一 个 模型 在 MNIST 测试 数据 集 上 的 正确 率 将 简称 为 “正确 率 ”。 
在 第 4 章 中 提 到 了 设计 神经 网 络 时 的 5 种 优化 方法 。 在 神经 网 络 结构 的 设计 上 ， 需 要 使 用 
激活 函数 和 多 层 隐藏 层 。 在 神经 网 络 优化 时 ， 可 以 使 用 指数 衰减 的 学 习 率 、 加 入 正则 化 的 
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损失 函数 以 及 滑动 平均 模型 。 在 图 5-3 中 ,给 出 了 在 相同 神经 网 络 参数 下 ”"， 使 用 不 同 优化 
方法 ， 经 过 30000 轮训 练 欠 代 后 ， 得 到 的 最 终 模型 的 正确 率 "。 图 5-3 给 出 的 结果 中 包含 了 
使 用 所 有 优化 方法 训练 得 到 的 模型 和 不 用 其 中 某 一 项 优化 方法 训练 得 到 的 模型 。 通 过 这 种 
方式 ， 可 以 有 效 验 证 每 一 项 优化 方法 的 效果 。 
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”使 用 所 有 优化 不 用 滑动 平均 _ 不 用 正则 化 。 不 同 指数 衰减 学 习 率 不 不 用 激活 函数 


图 5-3 不 同 模型 的 正确 率 


从 图 5-3 中 可 以 很 明显 地 看 出 , 调整 神经 网 络 的 结构 对 最 终 的 正确 率 有 非常 大 的 影响 。 
没有 隐藏 层 或 者 没有 激活 函数 时 ， 模 型 的 正确 率 只 有 大 约 92.6%， 这 个 数字 要 远 远 小 于 使 
用 了 隐藏 层 和 激活 函数 时 可 以 达到 的 大 约 98.4% 的 正确 率 。 0 
模型 的 效果 有 本 质 性 的 影响 。 第 6 章 将 会 卷 积 神经 
网 络 。 卷 积 神经 网 络 可 以 更 加 有 效 地 处 理 图 像 信 息 。 通过 着 积 神 经 网 络 可 殿 凡 一生 将 下 
确 率 提 高 到 大 约 99.5%。 

从 图 5-3 上 的 数字 中 可 发 现 使 用 滑动 平均 模型 、 指 数 衰减 的 学 习 率 和 使 用 正则 化 带 来 
的 正确 率 的 提升 并 不 是 特别 明显 。 其 中 使 用 了 所 有 优化 算法 的 模型 和 不 使 用 滑动 平均 的 模 
型 以 及 不 使 用 指数 衰减 的 学 习 率 的 模型 都 可 以 达到 大 约 98.4% 的 正确 率 。 这 是 因为 滑动 平 
均 模 型 和 指数 衰减 的 学 习 率 在 一 定 程度 上 都 是 限制 神经 网 络 中 参数 更 新 的 速度 ， 然 而 在 
MNIST 数据 上 ， 因 为 模型 收敛 的 速度 很 快 ， 所 以 这 两 种 优化 对 最 终 模 型 的 影响 不 大 。 从 
图 5-2 中 可 以 看 到 ， 当 模型 迭代 到 4000 轮 时 正确 率 就 已 经 接近 最 终 的 正确 率 了 。 而 在 迭代 





@ 在 本 小 节 中 , 不 同 神经 网 络 模型 使 用 的 参数 和 5.2.1 小 节 给 出 的 代码 中 的 参数 一 致 。 唯 一 的 例外 是 不 使 
用 激活 函数 的 模型 使 用 的 学 习 率 为 0.05。 
@ 因为 神经 网 络 的 训练 过 程 存在 随机 因素 ， 本 小 节 中 列 出 的 所 有 结果 都 是 10 次 运行 的 平均 值 。 
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的 早期 , 是 否 使 用 滑动 平均 模型 或 者 指数 衰减 的 学 习 率 对 训练 结果 的 影响 相对 较 小 。 图 5-4 
显示 了 不 同 迭 代 轮 数 时 ， 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 平均 绝对 梯度 的 变化 趋 
势 。 图 5-5 显示 了 不 同 欠 代 轮 数 时 ， 正 确 率 与 衰减 之 后 的 学 习 率 的 变化 趋势 。 
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图 5-4 ”使 用 了 所 有 优化 方法 的 模型 正确 率 与 平均 绝 度 梯度 在 不 同和 迭代 轮 数 时 的 变化 趋势 
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图 5-5 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 学 习 率 在 不 同和 迭代 轮 数 时 的 变化 趋势 














从 图 5-4 中 可 以 看 到 ， 前 4000 轮 和 迭代 对 模型 的 改变 是 最 大 的 。 在 4000 轮 之 后 ， 因 为 
梯度 本 身 比较 小 ， 所 以 参数 的 改变 也 就 比较 缓慢 了 。 于 是 滑动 平均 模型 或 者 指数 衰减 的 学 


@ 平均 绝对 梯度 是 所 有 参数 梯度 绝对 值 的 平均 数 。 
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习 率 的 作用 也 就 没有 那么 突出 了 。 从 图 5-5 中 可 以 看 到 ， 学 习 率 曲线 呈现 出 阶梯 状 衰减 ， 
在 前 4000 轮 时 ， 衰减 之 后 的 学 习 率 和 最 初 的 学 习 率 差距 并 不 大 。 那 么 ， 这 是 否 能 说 明 这 些 
优化 方法 作用 不 大 呢 ? 答案 是 否定 的 。 当 问题 更 加 复杂 时 ， 和 迭代 不 会 这 么 快 接近 收敛 ， 这 
时 滑动 平均 模型 和 指数 衰减 的 学 习 率 可 以 发 挥 更 大 的 作用 。 比 如 在 Cifar10 图 像 分 类 数据 
集 上 ， 使 用 滑动 平均 模型 可 以 将 错误 率 降 低 11%， 而 使 用 指数 衰减 的 学 习 率 可 以 将 错误 率 
降低 7%。 

相 比 滑动 平均 模型 和 指数 衰减 学 习 率 ， 使 用 加 入 正则 化 的 损失 函数 给 模型 效果 带 来 的 
提升 要 相对 显著 。 使 用 了 正则 化 损失 函数 的 神经 网 络 模型 可 以 降低 大 约 6% 的 错误 率 〈 从 
1.69% 降 低 到 1.59%)。 图 5-6 和 图 5-7 显示 了 正则 化 给 模型 优化 过 程 带 来 的 影响 。 图 5-6 和 
图 5-7 对 比 了 两 个 使 用 了 不 同 损失 函数 的 神经 网 络 模型 。 一 个 模型 只 最 小 化 交叉 灶 损 失 ， 
以 下 代码 给 出 了 只 优化 交叉 糯 模型 的 模型 优化 函数 的 声明 语句 。 

train step = tf.train;GradientDescentOptimizer (learning rate)\ 

-minimize(cross entropy mean, global step=global step) 

男 一 个 模型 优化 的 是 交 义 焙 和 Z2 正则 化 损失 的 和 。 以 下 代码 给 出 了 这 个 模型 优化 函数 
的 声明 语句 。 

loss = cross entropy mean + regularaztion 

train step = tf.train.GradientDescentOptimizer (learning rate)\ 

.minimize (loss, global step=global step) 

在 图 5-6 中 灰色 和 黑色 的 实 线 给 出 了 两 个 模型 正确 率 的 变化 趋势 ， 虚 线 给 出 了 在 当前 

训练 batch 上 的 交叉 炉 损 失 。 
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图 5-6 “不同 模 型 在 不 同和 迭代 轮 数 时 交叉 糯 和 正确 率 的 关系 
从 图 5-6 中 可 以 看 出 ， 只 优化 交叉 米 的 模型 在 训练 数据 上 的 交叉 炉 损失 (灰色 虚线 ) 
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要 比 优 化 总 损失 的 模型 更 小 (黑色 虚线 )。 然 而 在 测试 数据 上 ， 优 化 总 损失 的 模型 (黑色 实 
线 ) 却 要 好 于 只 优化 交叉 焙 的 模型 (灰色 实 线 )。 这 个 原因 就 是 第 4 章 中 介绍 的 过 拟 合 问题 。 
只 优化 交叉 箭 的 模型 可 以 更 好 地 拟 合 训练 数据 〈 交 叉 粒 损失 更 小 )， 但 是 却 不 能 很 好 地 挖掘 
数据 中 潜在 的 规律 来 判断 未 知 的 测试 数据 ， 所 以 在 测试 数据 上 的 正确 率 低 。 

图 5-7 显示 了 不 同 模型 的 损失 函数 的 变化 趋势 。 图 5-7 的 左 侧 显 示 了 只 优化 交 义 烂 的 
模型 损失 函数 的 变化 规律 。 可 以 看 到 随 着 迭代 的 进行 ， 正 则 化 损失 是 在 不 断 加 大 的 。 因 为 
MNIST 问题 相对 比价 简单 ， 迭 代 后 期 的 梯度 很 小 (参考 图 5-4)， 所 以 正则 化 损失 的 增长 也 
不 快 。 如 果 问 题 更 加 复杂 ， 连 代 后 期 的 梯度 更 大 ， 就 会 发 现 总 损失 交叉 烂 损 失 加 上 正则 
化 损失 ) 会 呈现 出 一 个 U 字 型 。 在 图 5-7 的 右 侧 ， 显 示 了 优化 总 损失 的 模型 损失 函数 的 变 
化 规律 。 从 图 5-7 中 可 以 看 出 ， 这 个 模型 的 正则 化 损失 部 分 也 可 以 随 着 迭代 的 进行 越 来 越 
小 ， 从 而 使 得 整体 的 损失 呈现 一 个 逐步 递减 的 趋势 。 











不 使 用 正则 化 模型 使 用 正则 化 模型 
1.28 1.28 
0.32 0.32 
| = 0.08 | 
ea 0.02 | 
一 一 一 正则 化 损失 ”一 一 总 损失 

















图 5-7 ”正则 化 损失 值 和 总 损失 的 变化 趋势 


总 的 来 说 , 通过 MNIST 数据 集 有 效 地 验证 了 激活 函数 、 隐 藏 层 可 以 给 模型 的 效果 带 来 
质 的 飞跃 。 由 于 MNIST 问题 本 身 相对 简单 ， 滑 动 平均 模型 、 指 数 衰减 的 学 习 率 和 正则 化 损 
失 对 最 终 正 确 率 的 提升 效果 不 明显 。 但 通过 进一步 分 析 实 验 的 结果 ， 可 以 得 出 这 些 优化 方 
法 确实 可 以 解决 第 4 章 中 提 到 的 神经 网 络 优化 过 程 中 的 问题 。 当 需要 解决 的 问题 和 使 用 到 
的 神经 网 络 模型 更 加 复杂 时 ， 这 些 优化 方法 将 更 有 可 能 对 训练 效果 产生 更 大 的 影响 。 


在 5.2.1 小 节 中 将 计算 神经 网 络 前 向 传播 结果 的 过 程 抽象 成 了 一 个 函数 。 通 过 这 种 方式 
在 训练 和 测试 的 过 程 中 可 以 统一 调用 同一 个 函数 来 得 模型 的 前 向 传播 结果 。 在 5.2.1 小 节 
中 ， 这 个 函数 的 定义 为 : 


def inferencelinput tensor, avg class, weightsl, biasesl weights2, biases2) : 
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从 定义 中 可 以 看 到 ， 这 个 函数 的 参数 中 包括 了 神经 网 络 中 的 所 有 参数 。 然 而 ， 当 神经 
网 络 的 结构 更 加 复杂 、 参 数 更 多 时 ， 就 需要 一 个 更 好 的 方式 来 传递 和 管理 神经 网 络 中 的 参 
数 了 。TensorFlow 提供 了 通过 变量 名 称 来 创建 或 者 获取 一 个 变量 的 机 制 。 通 过 这 个 机 制 ， 
在 不 同 的 函数 中 可 以 直接 通过 变量 的 名 字 来 使 用 变量 ， 而 不 需要 将 变量 通过 参数 的 形式 到 
处 传递 。TensorFlow 中 通过 变量 名 称 获 取 变 量 的 机 制 主要 是 通过 tf.get_variable 和 
tfvariable_scope 函数 实现 的 。 下 面 将 分 别 介绍 如 何 使 用 这 两 个 函数 。 

第 4 章 介绍 了 通过 萎 Variable 函数 来 创建 一 个 变量 。 除 了 给.Variable 函数 ，TensorFlow 
还 提供 了 tfget variable 函数 来 创建 或 者 获取 变量 。 当 tfget_variable 用 于 创建 变量 时 , 它 和 
tf.Variable 的 功能 是 基本 等 价 的 。 以 下 代码 给 出 了 通过 这 两 个 函数 创建 同一 个 变量 的 样 例 。 


# 下 面 这 两 个 定义 是 等 价 的 。 
v= tf.get variable("v", shape=[ | 


initializer=tf.constant initializer(1.0)) 


v= tf.Variable (tf.constant (1.0, shape={1]), name="Vv") 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 tf.Variable 和 给 get_variable 函数 创建 变量 的 过 程 基本 
上 是 一 样 的 .tfget_variable 函数 调用 时 提供 的 维度 (shape) 信 息 以 及 初始 化 方法 (initializer) 
的 参数 和 给 Variable 函数 调用 时 提供 的 初始 化 过 程 中 的 参数 也 类 似 。TensorFlow 中 提供 的 
initializer 函数 和 3.4.3 小 节 中 介绍 的 随机 数 以 及 常量 生成 函数 大 部 分 是 一 一 对 应 的 。 比 如 ， 
在 上 面 的 样 例 程序 中 使 用 到 的 常数 初始 化 函数 攻 constant_initializer 和 常数 生成 函数 
tfconstant 功能 上 就 是 一 致 的 。TensorFlow 提供 了 7 种 不 同 的 初始 化 函数 ， 表 5-2 总 结 了 它 
们 的 功能 和 主要 参数 。 


表 5-2 ”TensorFlow 中 的 变量 初始 化 函数 
将 变量 初始 化 为 满足 正 态 分 布 的 随机 值 正 态 分 布 的 均值 和 标准 差 


将 变量 初始 化 为 满足 正 态 分 布 的 随机 值 ， 但 如 果 随 机 | 正 态 分 布 的 均值 和 标准 差 
出 来 的 值 偏离 平均 值 超过 2 个 标准 差 ， 那 么 这 个 数 将 
会 被 重新 随机 


将 变量 初始 化 为 满足 平均 分 布 的 随机 值 最 大 、 最 小 值 


将 变量 初始 化 为 满足 平均 分 布 但 不 影响 输出 数量 级 的 | factor( 产 生 随 机 值 时 乘 以 的 
随机 值 





















tftruncated_normal initializer 










系数 ) 


ET ET 


让 get variable 函数 与 引 Variable 函数 最 大 的 区 别 在 于 指定 变量 名 称 的 参数 。 对 于 
世 Variable 函数 ， 变 量 名 称 是 一 个 可 选 的 参数 ， 通 过 name="v" 的 形式 给 出 。 但 是 对 于 
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让 get_variable 函数 ， 变 量 名 称 是 一 个 必 填 的 参数 。tf.get_variable 会 根据 这 个 名 字 去 创建 或 
者 获取 变量 。 在 上 面 的 样 例 程序 中 , tf.get_variable 首先 会 试图 去 创建 一 个 名 字 为 v 的 参数 ， 
如 果 创 建 失败 〈 比 如 已 经 有 同名 的 参数 )， 那 么 这 个 程序 就 会 报错 。 这 是 为 了 避免 无 意识 的 
变量 复 用 造成 的 错误 。 比 如 在 定义 神经 网 络 参 数 时 ， 第 一 层 网 络 的 权重 已 经 叫 weights 了 ， 
那么 在 创建 第 二 层 神 经 网 络 时 ， 如 果 参 数 名 仍然 叫 weights， 就 会 触发 变量 重用 的 错误 。 否 
则 两 层 神经 网 络 共 用 一 个 权重 会 出 现 一 些 比 较 难 以 发 现 的 错误 。 如 果 需 要 通过 
不 get_variable 获取 一 个 已 经 创建 的 变量 , 需要 通过 tf.variable_scope 函数 来 生成 一 个 上 下 文 
管理 器 ， 并 明确 指定 在 这 个 上 下 文 管理 器 中 ，tf.get_variable 将 直接 获取 已 经 生成 的 变量 。 
下 面 给 出 了 一 段 代 码 说 明 如 何 通 过 tfvariable_scope 函数 来 控制 tf.get_variable 函数 获取 已 
经 创建 过 的 变量 。 






(2 


上 面 的 样 例 简 单 地 说 明了 通过 tfvariable scope 函数 可 以 控制 妮 get variable 函数 的 语 
义 。 当 给 variable_scope 函数 使 用 参数 reuse=True 生成 上 下 文 管理 器 时 ， 这 个 上 下 文 管理 器 
内 所 有 的 给 get_variable 函数 会 直接 获取 已 经 创建 的 变量 ,如 果 变 量 不 存在 , 则 tf.get_variable 
函数 将 报错 ; 相反 ， 如 果 给 variable_scope 函数 使 用 参数 reuse=None 或 者 reuse=False 创建 
上 下 文 管理 器 ，tf.get_variable 操作 将 创建 新 的 变量 。 如 果 同 名 的 变量 已 经 存在 ， 则 
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全 .get_variable 函数 将 报错 。TensorFlow 中 给 variable_scope 函数 是 可 以 媒 套 的 。 下 面 的 程序 
说 明了 当 共 variable_scope 函数 嵌 套 时 ，reuse 参数 的 取 值 是 如 何 确定 的 。 






论 variable_scope 函数 生成 的 上 下 文 管理 器 也 会 创建 一 个 TensorFlow 中 的 命名 空间 , 在 
命名 空间 内 创建 的 变量 名 称 都 会 带 上 这 个 命名 空间 名 作为 前 缀 。 所 以 ， 女 variable_scope 函 
数 除了 可 以 控制 蔚 get_variable 执行 的 功能 之 外 ,这 个 函数 也 提供 了 一 个 管理 变量 命名 空间 
的 方式 。 以 下 代码 显示 了 如 何 通过 给 variable_scope 来 管理 变量 的 名 称 。 
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通过 tvariable_scope 和 tf.get_variable 函数 ， 以 下 代码 对 5.2.1 小 节 中 定义 的 计算 前 向 
传播 结果 的 函数 做 了 一 些 改进 。 





使 用 上 面 这 段 代码 所 示 的 方式 ， 就 不 再 需要 将 所 有 变量 都 作为 参数 传递 到 不 同 的 函数 
中 了 。 当 神经 网 络 结构 更 加 复杂 、 参 数 更 多 时 ， 使 用 这 种 变量 管理 的 方式 将 大 大 提高 程序 
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的 可 读 性 。 


5.4 TensorFlow 模型 持久 化 


在 5.2.1 小 节 中 给 出 的 样 例 代码 在 训练 完成 之 后 就 直接 退出 了 , 并 没有 将 训练 得 到 的 模 
型 保存 下 来 方便 下 次 直接 使 用 。 为 了 让 训练 结果 可 以 复 用 ， 需 要 将 训练 得 到 的 神经 网 络 模 
型 持久 化 。5.4.1 小 节 将 介绍 通过 TensorFlow 程序 来 持久 化 一 个 训练 好 的 模型 ,并 从 持久 化 
之 后 的 模型 文件 中 还 原 被 保存 的 模型 。 然 后 5.4.2 小 节 将 介绍 TensorFlow 持久 化 的 工作 原 
理 和 持久 化 之 后 文件 中 的 数据 格式 。 


5.4.1 持久 化 代码 实现 


TensorFlow 提供 了 一 个 非常 简单 的 API 来 保存 和 还 原 一 个 神经 网 络 模型 。 这 个 API 就 
是 tftrain.Saver 类 。 以 下 代码 给 出 了 保存 TensorFlow 计算 图 的 方法 。 


R 






上 面 的 代码 实现 了 持久 化 一 个 简单 的 TensorFlow 模型 的 功能 。 在 这 段 代 码 中 ， 通 过 
saver.save 函数 将 TensorFlow 模型 保存 到 了 /path/to/model/model.ckpt 文件 中 。TensorFlow 模 
型 一 般 会 存在 后 级 为 .ckpt 的 文件 中 。 虽 然 上 面 的 程序 只 指定 了 一 个 文件 路 径 ， 但 是 在 这 个 
文件 目录 下 会 出 现 三 个 文件 。 这 是 因为 TensorFlow 会 将 计算 图 的 结构 和 图 上 参数 取 值 分 开 
保存 。 

上 面 这 段 代码 会 生成 的 第 一 个 文件 为 model.ckpt.meta， 它 保存 了 TensorFlow 计算 图 的 
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结构 。 第 3 章 中 介绍 过 TensorFlow 计算 图 的 原理 ， 这 里 可 以 简单 理解 为 神经 网 络 的 网 络 结 
构 。 第 二 个 文件 为 model.ckpt， 这 个 文件 中 保存 了 TensorFlow 程序 中 每 一 个 变量 的 取 值 。 
最 后 一 个 文件 为 checkpoint 文件 ， 这 个 文件 中 保存 了 一 个 目录 下 所 有 的 模型 文件 列表 。 对 
这 些 文件 中 的 具体 内 容 ，5.4.2 小 节 中 将 详细 讲述 。 以 下 代码 中 给 出 了 加 载 这 个 已 经 保存 的 
TensorFlow 模型 的 方法 。 


i 






4 4 My 
CP De ve 
Lk 2 
be W 
站 
本 和 
1 


- dk 了 
c 一 Ww pF ‘EE 2 未 

了 人‘ To 
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这 段 加 载 模型 的 代码 基本 上 和 保存 模型 的 代码 是 一 样 的 。 在 加 载 模型 的 程序 中 也 是 先 
定义 了 TensorFlow 计算 图 上 的 所 有 运算 ， 并 声明 了 一 个 给 train.Saver 类 。 两 段 代码 唯一 不 
同 的 是 ， 在 加 载 模型 的 代码 中 没有 运行 变量 的 初始 化 过 程 ， 而 是 将 变量 的 值 通过 已 经 保存 
的 模型 加 载 进来 。 如 果 不 希望 重复 定义 图 上 的 运算 ， 也 可 以 直接 加 载 已 经 持久 化 的 图 。 以 
下 代码 给 出 了 一 个 样 例 。 






ee es 
在 上 面 给 出 的 程序 中 ， 默 认 保存 和 加 载 了 TensorFlow 计算 图 上 定义 的 全 部 变量 。 但 有 
时 可 能 只 需要 保存 或 者 加 载 部 分 变量 。 比 如 ， 可 能 有 一 个 之 前 训练 好 的 五 层 神经 网 络 模型 ， 
但 现在 想 尝 试 一 个 六 层 的 神经 网 络 ， 那 么 可 以 将 前 面 五 层 神经 网 络 中 的 参数 直接 加 载 到 新 
的 模型 ， 而 仅仅 将 最 后 一 层 神经 网 络 重新 训练 。 
为 了 保存 或 者 加 载 部 分 变量 ， 在 声明 tftrain.Saver 类 时 可 以 提供 一 个 列表 来 指定 需要 


ar | 到 站 os 和 3 rp bi 
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保存 或 者 加 载 的 变量 。 比 如 在 加 载 模 型 的 代码 中 使 用 saver = tftrain.Saver([v1]) 命 令 来 构建 
tftrain.Saver 类 ,那么 只 有 变量 v1 会 被 加 载 进 来 。 如 果 运 行 修改 后 只 加 载 了 v1 的 代码 会 得 
到 变量 未 初始 化 的 错误 : 






5 2 < SR te A Dn > 人 
Pr a | 2 7 ; s 6 1 本 a La 


因为 v2 没有 被 加 载 ， 所 以 v2 在 运行 初始 化 之 前 是 没有 值 的。 除了 可 以 选取 需要 被 加 
载 的 变量 , tftrain.Saver 类 也 支持 在 保存 或 者 加 载 时 给 变量 重 命名 。 下 面 给 出 了 一 个 简单 的 
样 例 程序 说 明 变 量 重 命 名 是 如 何 被 使 用 的 。 






通过 tf.train.Saver 默认 
的 构造 函数 来 加 载 保存 的 模型 ， 那 么 程序 会 报 变量 找 不 到 的 错误 。 因 为 保存 时 候 变 量 的 名 
称 和 加 载 时 变量 的 名 称 不 一 致 。 为 了 解决 这 个 问题 ，TensorFlow 可 以 通过 字典 (dictionary) 
将 模型 保存 时 的 变量 名 和 需要 加 载 的 变量 联系 起 来 。 

这 样 做 主要 目的 之 一 是 方便 使 用 变量 的 滑动 平均 值 ,在 4.4.3 小 节 中 介绍 了 使 用 变量 的 
滑动 平均 值 可 以 让 神经 网 络 模 型 更 加 健壮 (robust)。 在 TensorFlow 中 ， 每 一 个 变量 的 滑动 
平均 值 是 通过 影子 变量 维护 的 ， 所 以 要 获取 变量 的 滑动 平均 值 实际 上 就 是 获取 这 个 影子 变 
量 的 取 值 。 如 果 在 加 载 模型 时 直接 将 影子 变量 映射 到 变量 自身 ， 那 么 在 使 用 训练 好 的 模型 
时 就 不 需要 再 调用 函数 来 获取 变量 的 滑动 平均 值 了 。 这样 大 大 方便 了 滑动 平均 模型 的 使 用 。 
以 下 代码 给 出 了 一 个 保存 滑动 平均 模型 的 样 例 。 
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以 下 代码 给 出 了 如 何 通过 变量 重 命名 直接 读 取 变 量 的 滑动 平均 值 。 从 下 面 程序 的 输出 
可 以 看 出 ， 读 取 的 变量 v 的 值 实际 上 是 上 面 代码 中 变量 v 的 滑动 平均 值 。 通 过 这 个 方法 ， 
就 可 以 使 用 完全 一 样 的 代码 来 计算 滑动 平均 模型 前 向 传播 的 结果 。 


a 






为 了 方便 加 载 时 重 命名 滑动 平均 变量 ，tftrain.ExponentialMovingAverage 类 提供 了 
variables_to_restore 函数 来 生成 给 train.Saver 类 所 需要 的 变量 重 命名 字典 。 以 下 代码 给 出 了 
variables_to_restore 函数 的 使 用 样 例 。 
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使 用 引 train.Saver 会 保存 运行 TensorFlow 程序 所 需要 的 全 部 信息 ， 然 而 有 时 并 不 需要 
某 些 信息 。 比 如 在 测试 或 者 离线 预测 时 ， 只 需要 知道 如 何 从 神经 网 络 的 输入 层 经 过 前 向 传 
播 计算 得 到 输出 层 即 可 ， 而 不 需要 类 似 于 变量 初始 化 、 模 型 保存 等 辅助 节点 的 信息 。 在 第 
6 章 介 绍 迁 移 学 习 时 ， 会 遇 到 类 似 的 情况 。 而 且 ， 将 变量 取 值 和 计算 图 结构 分 成 不 同 的 文 
件 存储 有 时 候 也 不 方便 , 于 是 TensorFlow 提供 了 convert_variables_to_constants 函数 , 通过 
这 个 函数 可 以 将 计算 图 中 的 变量 及 其 取 值 通过 常量 的 方式 保存 ， 这 样 整个 TensorFlow 计算 
图 可 以 统一 存放 在 一 个 文件 中 。 下 面 的 程序 提供 了 一 个 样 例 。 








@ 第 3 章 中 介绍 过 张 量 的 名 称 后 面 有 :0， 表 示 是 某 个 计算 节点 的 第 一 个 输出 。 而 计算 节点 本 身 的 名 称 后 


是 没有 :0 的 。 
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通过 下 面 的 程序 可 以 直接 计算 定义 的 加 法 运算 的 结果 。 当 只 需要 得 到 计算 图 中 某 个 节 
点 的 取 值 时 ， 这 提供 了 一 个 更 加 方便 的 方法 。 第 6 章 将 使 用 这 种 方法 来 使 用 训练 好 的 模型 
完成 迁移 学 习 。 





“Li td A Td a 
Re 
} A 4 1 
和 Wy 1 


5.4.2 ”持久 化 原理 及 数据 格式 


5.4.1 小 节 介 绍 了 当 调 用 saver.save 函数 时 ，TensorFlow 程序 会 自动 生成 3 个 文件 。 
TensorFlow 模型 的 持久 化 就 是 通过 这 3 个 文件 完成 的 。 这 一 小 节 将 详细 介绍 这 3 个 文件 中 
保存 的 内 容 以 及 数据 格式 。 在 具体 介绍 每 一 个 文件 之 前 ， 先 简单 回顾 一 下 第 3 章 中 介绍 过 
的 TensorFlow 的 一 些 基 本 概念 。TensorFlow 是 一 个 通过 图 的 形式 来 表述 计算 的 编程 系统 ， 
TensorFlow 程序 中 的 所 有 计算 都 会 被 表达 为 计算 图 上 的 节点 。TensorFlow 通过 元 图 
(MetaGraph ) 来 记录 计算 图 中 节点 的 信息 以 及 运行 计算 图 中 节点 所 需要 的 元 数据 。 
TensorFlow 中 元 图 是 由 MetaGraphDef Protocol Buffer 定义 的 ?。MetaGraphDef 中 的 内 容 就 
构成 了 TensorFlow 持久 化 时 的 第 一 个 文件 。 以 下 代码 给 出 了 MetaGraphDef 类 型 的 定义 。 


@ 2.1 节 中 有 关于 Protocol Buffer 的 具体 介绍 。 
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3 rect tr sh EN tt | | 

从 上 面 的 代码 中 可 以 看 到 , 元 图 中 主要 记录 了 5 类 信息 。 下 面 的 篇 幅 将 结合 5.4.1 小 节 
中 变量 相 加 样 例 的 持久 化 结果 ， 逐 一 介绍 MetaGraphDef 类 型 的 每 一 个 属性 中 存储 的 信息 。 
保存 MetaGraphDef 信息 的 文件 默认 以 .meta 为 后 级 名 ,在 5.4.1 小 节 的 样 例 中 ， 文 件 
model.ckptmeta 中 存储 的 就 是 元 图 的 数据 。 直接 运行 5.4.1 小 节 样 例 得 到 的 是 一 个 二 进 制 文 
件 ， 无 法 直接 查看 。 为 了 方便 调试 ，TensorFlow 提供 了 export meta_graph 函数 ， 这 个 函数 
支持 以 json 格式 导出 MetaGraphDef Protocol Buffer。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 


:Ey 






通过 上 面 给 出 的 代码 ， 可 以 将 5.4.1 小 节 中 的 计算 图 元 图 以 json 的 格式 导出 并 存储 在 
model.ckpt.meta.json 文件 中 。 下 文 将 结合 model.ckpt.meta.json 文件 具体 介绍 TensorFlow 元 
中 存储 的 信息 。 


meta_info_def 属性 


meta info_def 属性 是 通过 MetaInfoDef 定义 的 ， 它 记录 了 TensorFlow 计算 图 中 的 元 数 
据 以 及 TensorFlow 程序 中 所 有 使 用 到 的 运算 方法 的 信息 。 下 面 是 MetaInfoDef Protocol 
Buffer 的 定义 : 






TensorFlow 计算 图 的 元 数据 包括 了 计算 图 的 版 本 号 (meta_graph_version 属性 ) 以 及 用 
户 指定 的 一 些 标签 (tags 属性 )。 如 果 没 有 在 saver 中 特殊 指定 ， 那 么 这 些 属性 都 默认 为 空 。 
在 model.ckpt.meta.json 文件 中 , meta_info_def 属性 里 只 有 stripped_op_list 属性 是 不 为 空 的 。 
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stripped_op_list 属性 记录 了 TensorFlow 计算 图 上 使 用 到 的 所 有 运算 方法 的 信息 。 注 意 
stripped_ op list 属性 保存 的 是 TensorFlow 运算 方法 的 信息 ， 所 以 如 果 某 一 个 运算 在 
TensorFlow 计算 图 中 出 现 了 多 次 ， 那 么 在 stripped_op list 也 只 会 出 现 一 次 。 比 如 在 
model.ckpt.metajson 文件 的 stripped_op_list 属性 中 只 有 一 个 Variable 运算 , 但 这 个 运算 在 程 
序 中 被 使 用 了 两 次 。stripped_op_list 属性 的 类 型 是 OpList。OpList 类 型 是 一 个 OpDef 类 型 
的 列表 ， 以 下 代码 给 出 了 OpDef 类 型 的 定义 : 






CR A 
Hh i I 


定义 了 运算 的 名 称 ， 这 也 是 一 个 运算 唯一 的 标识 符 。 在 TensorFlow 计算 图 元 图 的 其 他 属性 
中 ， 比 如 下 面 将 要 介绍 的 GraphDef 属性 ， 将 通过 运算 名 称 来 引用 不 同 的 运算 。OpDef 的 第 
二 和 第 三 个 属性 为 input arg 和 output_arg， 它 们 定义 了 运算 的 输入 和 输出 。 因 为 输入 输出 
都 可 以 有 多 个 ， 所 以 这 两 个 属性 都 是 列表 (repeated)。 第 四 个 属性 attr 给 出 了 其 他 的 运算 
参数 信息 。 在 model.ckpt.meta.json 文件 中 总 共 定 义 了 7 个 运算 ， 下 面 将 给 出 比较 有 代表 性 
的 一 个 运算 来 辅助 说 明 OpDef 的 数据 结构 。 


$28fy 可 


1 
多 和 
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上 面 给 出 了 名 称 为 Add 的 运算 。 这 个 运算 有 2 个 输入 和 1 个 输出 ， 输 入 输出 属性 都 指 
定 了 属性 type_attr, 并 且 这 个 属性 的 值 为 T。 在 OpDef 的 attr 属性 中 , 必须 要 出 现 名称 (name) 
为 工 的 属性 。 以 上 样 例 中 , 这 个 属性 指定 了 运算 输入 输出 允许 的 参数 类 型 (allowed_values ) 。 

graph_def 属性 

graph_def 属性 主要 记录 了 TensorFlow 计算 图 上 的 节点 信息 。TensorFlow 计算 图 的 每 一 
个 节点 对 应 了 TensorFlow 程序 中 的 一 个 运算 。 因 为 在 meta_info_def 属性 中 已 经 包含 了 所 有 
运算 的 具体 信息 ， 所 以 graph_def 属性 只 关注 运算 的 连接 结构 。graph_def 属性 是 通过 
GraphDef Protocol Buffer 定义 的 ，GraphDef 主要 包含 了 一 个 NodeDef 类 型 的 列表 。 以 下 代 
码 给 出 了 GraphDef 和 NodeDef 类 型 中 包含 的 信息 : 





GraphDef 中 的 versions 属性 比较 简单 ， 它 主要 存储 了 TensorFlow 的 版 本 号 。GraphDef 
的 主要 信息 都 存在 node 属性 中 ， 它 记录 了 TensorFlow 计算 图 上 所 有 的 节点 信息 。 和 其 他 
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属性 类 似 ，NodeDef 类 型 中 有 一 个 名 称 属性 name， 它 是 一 个 节点 的 唯一 标识 符 。 在 
TensorFlow 程序 中 可 以 通过 节点 的 名 称 来 获取 相应 的 节点 。NodeDef 类 型 中 的 op 属性 给 出 
了 该 节点 使 用 的 TensorFlow 运算 方法 的 名 称 , 通过 这 个 名 称 可 以 在 TensorFlow 计算 图 元 图 
的 meta info_def 属性 中 找到 该 运算 的 具体 信息 。 

NodeDef 类 型 中 的 input 属性 是 一 个 字符 串 列表 ， 它 定义 了 运算 的 输入 。input 属性 中 
每 个 字符 串 的 取 值 格式 为 node:src_output, 其 中 node 部 分 给 出 了 一 个 节点 的 名 称 ,src_output 
部 分 表明 了 这 个 输入 是 指定 节点 的 第 几 个 输出 。 当 src_output 为 0 时 ， 可 以 省 略 :src_output 
这 个 部 分 。 比 如 node:0 表示 名 称 为 node 的 节点 的 第 一 个 输出 ， 它 也 可 以 被 记 为 node。 

NodeDef 类 型 中 的 device 属性 指定 了 处 理 这 个 运算 的 设备 。 运 行 TensorFlow 运算 的 设 
备 可 以 是 本 地 机 器 的 CPU 或 者 GPU， 也 可 以 是 一 台 远 程 的 机 器 CPU 或 者 GPU。 第 10 章 
将 具体 介绍 如 何 指定 运行 TensorFlow 运算 的 设备 。 当 device 属性 为 空 时 ，TensorFlow 在 运 
行 时 会 自动 选取 一 个 最 合适 的 设备 来 运行 这 个 运算 。 最 后 NodeDef 类 型 中 的 attr 属性 指定 
了 和 当前 运算 相关 的 配置 信息 。 下 面 列举 了 model.ckpt.meta.json 文件 中 的 一 些 计算 节点 来 
更 加 具体 地 介绍 graph_def 属性 。 


Wh 
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上 面 给 出 了 model.ckpt.meta.json 文件 中 graph_def 属性 里 比较 有 代表 性 的 几 个 节点 。 第 
一 个 节点 给 出 的 是 变量 定义 的 运算 。 在 TensorFlow 中 变量 定义 也 是 一 个 运算 ， 这 个 运算 的 
名 称 为 v1 (name: "v1")， 运 算 方 法 的 名 称 为 Variable (op: "Variable")。 定 义 变量 的 运算 可 
以 有 很 多 个 , 于 是 在 NodeDef 类 型 的 node 属性 中 可 以 有 多 个 变量 定义 的 节点 。 但 定义 变量 
的 运算 方法 只 用 到 了 一 个 ， 于 是 在 MetaInfoDef 类 型 的 stripped_op_list 属性 中 只 有 一 个 名 
称 为 Variable 的 运算 方法 。 除 了 指定 计算 图 中 节点 的 名 称 和 运算 方法 ，NodeDef 类 型 中 还 
定义 了 运算 相关 的 属性 。 在 节点 vl 中 ，attr 属性 指定 了 这 个 变量 的 维度 以 及 类 型 。 

给 出 的 第 二 个 节点 是 代表 加 法 运算 的 节点 。 它 指定 了 2 个 输入 ， 一 个 为 vl/read， 另 
一 个 为 v2/read。 其 中 vl/read 代表 的 节点 可 以 读 取 变量 v1 的 值 。 因 为 vl 的 值 是 节点 vl/read 
的 第 一 个 输出 ， 所 以 后 面 的 :0 就 可 以 省 略 了 。v2/read 也 类 似 的 代表 了 变量 v2 的 取 值 。 以 
上 样 例文 件 中 给 出 的 最 后 一 个 名 称 为 save/control dependency， 该 节点 是 系统 在 完成 
TensorFlow 模型 持久 化 过 程 中 自动 生成 的 一 个 运算 。 在 样 例文 件 的 最 后 ， 属 性 versions 给 
出 了 生成 modelckptmetajson 文件 时 使 用 的 TensorFlow 版 本 号 。 


saver_def 属性 


saver_def 属性 中 记录 了 持久 化 模型 时 需要 用 到 的 一 些 参数 , 比如 保存 到 文件 的 文件 名 、 
保存 操作 和 加 载 操 作 的 名 称 以 及 保存 频率 、 清 理 历史 记录 等 。saver_def 属性 的 类 型 为 
SaverDef， 其 定义 如 下 。 
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下 面 给 出 了 model.ckpt.meta.json 文件 中 saver_def 属性 的 内 容 。 





ye 


filename tensor name 属性 给 出 了 保存 文件 名 的 张 量 名 称 ， 这 个 张 量 就 是 节点 
save/Const 的 第 一 个 输出 。save_tensor_name 属性 给 出 了 持久 化 TensorFlow 模型 的 运算 所 对 
应 的 节点 名 称 。 从 上 面 的 文件 中 可 以 看 出 ， 这 个 节点 就 是 在 graph_def 属性 中 给 出 的 
save/control dependency 节点 。 和 持久 化 TensorFlow 模型 运算 对 应 的 是 加 载 TensorFlow 模 
型 的 运算 ， 这 个 运算 的 名 称 由 restore op name 属性 指定 。max to keep 属性 和 
keep_checkpoint every_n_hours 属性 设 定 了 tftrain.Saver 类 清理 之 前 保存 的 模型 的 策略 。 比 
如 当 max_to_keep 为 5 的 时 候 , 在 第 六 次 调用 saver.save 时 ， 第 一 次 保存 的 模型 就 会 被 自动 
删除 。 通 过 设置 keep_checkpoint_every_ n_hours， 每 n 小 时 可 以 在 max_to_keep 的 基础 上 多 
保存 一 个 模型 。 

collection_def 属性 

在 TensorFlow 的 计算 图 〈( 蔚 Graph) 中 可 以 维护 不 同 集合 , 而 维护 这 些 集合 的 底层 实现 
就 是 通过 collection_def 这 个 属性 。collection def 属性 是 一 个 从 集合 名 称 到 集合 内 容 的 映射 ， 


其 中 集合 名 称 为 字符 串 ， 而 集合 内 容 为 CollectionDef Protocol Buffer。 以 下 代码 给 出 了 
CollectionDef 类 型 的 定义 。 
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和 
fr 榴 夺 | 4 - a 上 4 nh RE -i 
本 人 0 pra | 


通过 上 面 的 定义 可 以 看 出 , TensorFlow 计算 图 上 的 集合 主要 可 以 维护 4 类 不 同 的 集合 。 
NodeList 用 于 维护 计算 图 上 节点 的 集合 。BytesList 可 以 维护 字符 串 或 者 系列 化 之 后 的 
Procotol Buffer 的 集合 。 比 如 张 量 是 通过 Protocol Buffer 表示 的 ， 而 张 量 的 集合 是 通过 
BytesList 维护 的 ， 我 们 将 在 model.ckpt.meta.json 文件 中 看 到 具体 样 例 。Int64List 用 于 维护 
整数 集合 ，FloatList 用 于 维护 实数 集合 。 下 面 给 出 了 model.ckptmetajson 文件 中 
collection def 属性 的 内 容 。 
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从 上 面 的 文件 可 以 看 出 样 例 程序 中 维护 了 两 个 集合 。 一 个 是 所 有 变量 的 集合 ， 这 个 集 
合 的 名 称 为 variables。 另 外 一 个 是 可 训练 变量 的 集合 ， 名 为 trainable_variables。 在 样 例 程 
序 中 ， 这 两 个 集合 中 的 元 素 是 一 样 的 ， 都 是 变量 vl 和 v2。 它们 都 是 系统 自动 维护 的 ”。 

通过 对 MetaGraphDef 类 型 中 主要 属性 的 讲解 ， 本 小 节 已 经 介绍 了 TensorFlow 模型 持 
久 化 得 到 的 第 一 个 文件 中 的 内 容 。 除 了 持久 化 TensorFlow 计算 图 的 结构 ,持久 化 TensorFlow 
中 变量 的 取 值 也 是 非常 重要 的 一 个 部 分 。5.4.1 小 节 中 使 用 葵 Saver 得 到 的 model.ckpt 文件 
就 保存 了 所 有 变量 的 取 值 。 这 个 文件 是 通过 SSTable 格式 存储 的 ， 可 以 大 致 理解 为 就 是 一 
个 (key，value) 列表 。 

model.ckpt 文件 中 列表 的 第 一 行 描 述 了 文件 的 元 信息 ， 比 如 在 这 个 文件 中 存储 的 变量 
列表 。 列 表 剩 下 的 每 一 行 保存 了 一 个 变量 的 片段 ， 变 量 片段 的 信息 是 通过 SavedSlice 
Protocol Buffer 定义 的 。SavedSlice 类 型 中 保存 了 变量 的 名 称 、 当 前 片段 的 信息 以 及 变量 取 
值 。TensroFlow 提供 了 tftrain.NewCheckpointReader 类 来 查看 model.ckpt 文件 中 保存 的 变 
量 信息 。 以 下 代码 展示 了 如 何 使 用 tttrain.NewCheckpointReader 类 。 






OriJ as TL tr ed Cer a0 EY 
er Af 用 人 pp Bs 1 op A 


最 后 一 个 文件 的 名 字 是 固定 的 ， 叫 checkpoint。 这 个 文件 是 tftrain.Saver 类 自动 生成 且 
自动 维护 的 。 在 checkpoint 文件 中 维护 了 由 一 个 给 train.Saver 类 持久 化 的 所 有 TensorFlow 


@ 第 3 章 中 有 更 加 详细 的 关于 TensorFlow 自动 维护 的 集合 的 介绍 。 
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模型 文件 的 文件 名 。 当 某 个 保存 的 TensorFlow 模型 文件 被 删除 时 ， 这 个 模型 所 对 应 的 文件 
名 也 会 从 checkpoint 文件 中 删除 。checkpoint 中 内 容 的 格式 为 CheckpointState Protocol 
Buffer， 下 面 给 出 了 CheckpointState 类 型 的 定义 。 
message CheckpointSstate { 
string model checkpoint path = 1; 
repeated string all model checkpoint paths = 2 
} 
model checkpoint path 属性 保存 了 最 新 的 TensorFlow 模型 文件 的 文件 名 。 
all model checkpoint_ paths 属性 列 出 了 当前 还 没有 被 删除 的 所 有 TensorFlow 模型 文件 的 文 
件 名 。 下 面 给 出 了 通过 5.4.1 节 中 样 例 程序 生成 的 checkpoint 文件 。 
model checkpoint path: "/path/to/model/model.ckpt" , 
all model checkpoint paths: "/path/to/model/model.ckpt" 


5.5 TensorFlow 最 佳 实践 样 例 程序 


在 5.2.1 小 节 中 已 经 给 出 了 一 个 完整 的 TensorFlow 程序 来 解决 MNIST 问题 。 然 而 这 个 
程序 的 可 扩展 性 并 不 好 。 如 在 5.3 节 中 提 到 的 ， 计 算 前 向 传播 的 函数 需要 将 所 有 变量 都 传 
入 ， 当 神经 网 络 的 结构 变 得 更 加 复杂 、 参 数 更 多 时 ， 程 序 可 读 性 会 变 得 非常 差 。 而 且 这 种 
方式 会 导致 程序 中 有 大 量 的 元 余 代 码 ， 降 低 编程 的 效率 。5.2.1 小 节 给 出 的 程序 的 另外 一 个 
问题 是 没有 持久 化 训练 好 的 模型 。 当 程序 退出 时 ， 训 练 好 的 模型 也 就 被 无 法 再 使 用 了 ， 这 
导致 得 到 的 模型 无 法 被 重用 。 更 严重 的 问题 是 ， 一 般 神经 网 络 模型 训练 的 时 间 都 比较 长 ， 
少 则 几 个 小 时 ， 多 则 几 天 甚至 几 周 。 如 果 在 训练 过 程 中 程序 死机 了 ， 那 么 没有 保存 训练 的 
中 间 结 果 会 浪费 大 量 的 时 间 和 资源 。 所 以 ， 在 训练 的 过 程 中 需要 每 隔 一 段 时 间 保 存 一 次 模 
型 训练 的 中 间 结 果 。 

结合 5.3 节 中 介绍 的 变量 管理 机 制 和 5.4 节 中 介绍 的 TensorFlow 模型 持久 化 机 制 ， 本 
节 中 将 介绍 一 个 TensorFlow 训练 神经 网 络 模型 的 最 佳 实践 。 将 训练 和 测试 分 成 两 个 独立 的 
程序 ， 这 可 以 使 得 每 一 个 组 件 更 加 灵活 。 比 如 训练 神经 网 络 的 程序 可 以 持续 输出 训练 好 的 
模型 ， 而 测试 程序 可 以 每 隔 一 段 时 间 检 验 最 新 模型 的 正确 率 ， 如 果 模 型 效果 更 好 ， 则 将 这 
个 模型 提供 给 产品 使 用 。 除 了 将 不 同 功能 模块 分 开 ， 本 节 还 将 前 向 传播 的 过 程 抽象 成 一 个 
单独 的 库 函 数 。 因 为 神经 网 络 的 前 向 传播 过 程 在 训练 和 测试 的 过 程 中 都 会 用 到 ， 所 以 通过 
库 函 数 的 方式 使 用 起 来 既 可 以 更 加 方便 ， 又 可 以 保证 训练 和 测试 过 程 中 使 用 的 前 向 传播 方 
法 一 定 是 一 致 的 。 

本 节 将 提供 重 构 之 后 的 程序 来 解决 MNIST 问题 。 重 构 之 后 的 代码 将 会 被 拆 成 3 个 程序 ， 
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第 一 个 是 mnist_inference.py， 它 定义 了 前 向 传播 的 过 程 以 及 神经 网 络 中 的 参数 。 第 二 个 是 
mnist_train.py， 它 定义 了 神经 网 络 的 训练 过 程 。 第 三 个 是 mnist_eval.py， 它 定义 了 测试 过 
程 。 以 下 代码 给 出 了 mnist_inference.py 中 的 内 容 。 
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在 这 段 代码 中 定 了 神经 网 络 的 前 向 传播 算法 。 无 论 是 训练 时 还 是 测试 时 ， 都 可 以 直接 
调用 inference 这 个 函数 ， 而 不 用 关心 具体 的 神经 网 络 结构 。 使 用 定义 好 的 前 向 传播 过 程 ， 
以 下 代码 给 出 了 神经 网 络 的 训练 程序 mnist_train.py。 
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运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 。 


Sa " ME 
在 新 的 训练 代码 中 ,不 再 将 训练 和 测试 跑 在 一 起 。 训 练 过 程 中 ， 每 1000 轮 输出 一 次 在 
当前 训练 batch 上 损失 函数 的 大 小 来 大 致 估计 训练 的 效果 。 在 上 面 的 程序 中 ， 每 1000 轮 保 
存 一 次 训练 好 的 模型 ， 这 样 可 以 通过 一 个 单独 的 测试 程序 ， 更 加 方便 地 在 滑动 平均 模型 上 
做 测试 。 以 下 代码 给 出 了 测试 程序 mnist_eval.py。 
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读 冉 人 de pei 


上 面 给 出 的 mnist_eval.py 程序 会 每 隔 10 秒 运行 一 次 ,每 次 运行 都 是 读 取 最 新 保存 的 模 
型 ,并 在 MNIST 验证 数据 集 上 计算 模型 的 正确 率 。 如 果 需 要 离线 预测 未 知 数 据 的 类 别 比 
如 这 个 样 例 程序 可 以 判断 手写 体 数字 图 片 中 所 包含 的 数字 ), 只 需要 将 计算 正确 率 的 部 分 改 
为 答案 输出 即 可 。 运 行 mnist_eval.py 程序 可 以 得 到 类 似 下 面 的 结果 。 注 意 因为 这 个 程序 每 
10 秒 自动 运行 一 次 ， 而 训练 程序 不 一 定 每 10 秒 输出 一 个 新 模型 ， 所 以 在 下 面 的 结果 中 会 
发 现 有 些 模型 被 测试 了 多 次 。 一 般 在 解决 真实 问题 时 ， 不 会 这 么 频繁 地 运行 评测 程序 。 


:ET 





小 结 


本 章 通过 MNIST 数据 集 验 证 了 第 4 章 介绍 的 神经 网 络 优化 方法 ， 同 时 也 给 出 了 使 用 
TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程序 。 首 先 在 本 章 的 5.1 节 中 大 致 讲解 了 
MNIST 数据 集 的 基本 情况 ， 也 介绍 了 TensorFlow 提供 的 一 个 类 让 处 理 MNIST 数据 集 更 加 
方便 。 然 后 5.2 节 给 出 了 一 个 完整 的 TensorFlow 程序 来 实现 第 4 章 中 提 到 的 所 有 优化 方法 。 
通过 此 程序 , 对 比 了 不 同 优化 算法 对 模型 在 测试 数据 集 上 正确 率 的 影响 。 在 MNIST 数据 集 
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上 ， 可 以 明显 地 观察 到 神经 网 络 的 结构 对 最 终结 果 的 影响 是 巨大 的 ， 使 用 了 激活 函数 和 隐 
藏 层 的 神经 网 络 要 远 远 好 于 没有 激活 函数 或 者 没有 隐藏 层 的 神经 网 络 。 下 面 的 第 6 章 将 介 
绍 神经 网 络 中 一 个 非常 常用 的 结构 一 一 卷 积 网 络 。 通 过 卷 积 网 络 可 以 进一步 提高 神经 网 络 
模型 在 MNIST 数据 集 上 的 正确 率 。 对 于 其 他 的 优化 方法 ， 虽 然 在 MNIST 数据 集 上 对 于 正 
确 率 的 提高 有 限 , 但 是 通过 进一步 的 分 析 ， 验证 了 它们 确实 可 以 解决 第 4 章 中 提 到 的 问题 。 
这 一 节 也 提出 了 在 一 个 更 加 复杂 数据 集 上 ， 这 些 优 化 算法 可 以 降低 大 约 10% 的 错误 率 。 

在 53 和 5.4 节 中 提出 了 5.2 节 中 TensorFlow 程序 实现 的 一 些 不 足 之 处 ， 并 介绍 了 
TensorFlow 的 最 佳 实践 来 解决 这 些 不 足 。5.3 节 指 出 当 神 经 网 络 的 结构 变 得 更 加 复杂 、 变 量 
更 多 之 后 ， 通 过 引用 的 方式 传递 变量 会 大 大 降低 程序 的 可 读 性 。 为 了 解决 这 个 问题 ，5.3 节 
介绍 了 TensorFlow 中 利用 变量 名 称 来 创建 /获取 变量 的 机 制 。 通 过 这 个 机 制 可 以 完全 将 前 向 
传播 的 过 程 抽象 出 来 ， 使 得 训练 和 测试 时 不 需要 关心 神经 网 络 的 结构 或 是 参数 。5.2 节 中 给 
出 的 训练 程序 另外 一 个 问题 就 是 没有 将 训练 好 的 模型 持久 化 。5.4 节 介 绍 了 TensorFlow 保 
存 模型 的 方法 以 及 TensorFlow 模型 持久 化 的 原理 和 数据 的 格式 。 综 合 5.3 和 5.4 节 中 提出 
的 问题 , 在 5.5 节 中 给 出 了 一 个 通过 TensorFlow 解决 MNIST 问题 的 最 佳 实践 样 例 程序 。 这 
个 样 例 将 神经 网 络 的 训练 、 测 试 和 使 用 拆 分 成 了 不 同 的 程序 ， 并 且 将 神经 网 络 的 前 向 传播 
过 程 抽象 成 了 一 个 独立 的 库 函 数 。 通 过 这 种 方式 可 以 将 训练 过 程 和 测试 、 使 用 过 程 解 看 合 ， 
从 而 使 得 整个 流程 更 加 灵活 。 
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在 第 5 章 中 , 通过 MNIST 数据 集 验 证 了 第 4 章 介 绍 的 神经 网 络 设计 与 优化 的 方法 。 从 
实验 的 结果 可 以 看 出 ， 神 经 网 络 的 结构 会 对 神经 网 络 的 准确 率 产 生 巨 大 的 影响 。 本 章 将 介 
绍 一 个 非常 常用 的 神经 网 络 结构 卷 积 神经 网 络 (Convolutional Neural Network, CNN)。 
卷 积 神经 网 络 的 应 用 非常 广泛 ,在 自然 语言 处 理 ”、 医 药 发 现 ”、 灾 难 气候 发 现 8 甚 至 围棋 人 
工 智能 程序 "中 都 有 应 用 。 本 章 将 主要 通过 卷 积 神经 网 络 在 图 像 识 别 上 的 应 用 来 讲解 卷 积 神 
经 网 络 的 基本 原理 以 及 如 何 使 用 TensorFlow 实现 卷 积 神经 网 络 。 

首先 6.1 节 将 介绍 图 像 识 别 领域 解决 的 问题 以 及 图 像 识 别 领域 中 经 典 的 数据 集 。 然 后 
6.2 节 将 介绍 卷 积 神经 网 络 的 主体 思想 和 整体 架构 。 接 着 6.3 节 将 详细 讲解 卷 积 层 和 池 化 层 
的 网 络 结构 ， 以 及 TensorFlow 对 这 些 网 络 结构 的 支持 。 在 6.4 节 中 将 通过 两 个 经 典 的 卷 积 
神经 网 络 模型 来 介绍 如 何 设计 卷 积 神经 网 络 的 架构 以 及 如 何 设置 每 一 层 神 经 网 络 的 配置 。 
这 一 节 将 通过 TensorFlow 实现 LeNet-5 模型 ， 并 介绍 TensorFlow-Slim 来 实现 更 加 复杂 的 
Inception-v3 模型 中 的 Inception 模块 .最 后 在 6.5 节 中 将 介绍 如 何 通过 TensorFlow 实现 卷 积 
神经 网 络 的 迁移 学 习 。 





Q@ 详情 请 参考 论文 : Learning Semantic Representations Using Convolutional Neural Networks for Web 
Search、 A Deep Architecture for Semantic Parsing、 A Convolutional Neural Network for Modelling Sentences 
及 Convolutional Neural Networks for Sentence Classification。 

@ 参见 : Wallach I, Dzamba M, Heifets A. AtomNet: 4 Deep Convolutional Neural Network for Bioactivity 
Prediction in Structure-based Drug Discovery [J]. Mathematische Zeitschrift, 2015. 

人 @@) 参见 : Liu Y, Racah E, Prabhat, et al. Application of Deep Convolutional Neural Networks for Detecting 
Extreme Weather in Climate Datasets [J]. 2016. 

@ 参见 : Clark C, Storkey A. Teaching Deep Convolutional Neural Networks to Play Go [J]. Eprint Arxiv, 2015. 
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视觉 是 人 类 认识 世界 非常 重要 的 一 种 知觉 。 对 于 人 类 来 说 ， 通 过 视觉 来 识别 手写 体 数 
字 、 识 别 图 片 中 的 物体 或 者 找 出 图 片 中 人 脸 的 轮廓 都 是 非常 简单 的 任务 。 然 而 对 于 计算 机 
而 言 ， 让 计算 机 识别 图 片 中 的 内 容 就 不 是 一 件 容易 的 事情 了 。 图 像 识 别 问题 希望 借助 计算 
机 程序 来 处 理 、 分 析 和 理解 图 片 中 的 内 容 ， 使 得 计算 机 可 以 从 图 片 中 自动 识别 各 种 不 同 模 
式 的 目标 和 对 像 .比如 在 第 5 章 中 介绍 的 MNIST 数据 集 就 是 通过 计算 机 来 识别 图 片 中 的 手 
写 体 数字 。 图 像 识 别 问题 作为 人 工 智 能 的 一 个 重要 领域 ， 在 最 近 几 年 已 经 取得 了 很 多 突破 
性 的 进展 。 本 章 将 要 介绍 的 卷 积 神经 网 络 就 是 这 些 突破 性 进展 背后 的 最 主要 技术 支持 。 
图 6-1 中 显示 了 图 像 识别 的 主流 技术 在 MNIST 数据 集 上 的 错误 率 随 着 年 份 的 发 展 趋势 图 。 
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图 6-1 不 同 算法 在 MNIST 数据 集 上 最 好 表现 变化 趋势 图 ” 





| 





图 6-1 中 最 下 方 的 虚线 表示 人 工 标注 的 错误 率 ， 其 他 不 同 的 线段 表示 了 不 同 算法 的 错 
误 率 。 从 图 6-1 上 可 以 看 出 ， 相 比 其 他 算法 ， 卷 积 神经 网 络 可 以 得 到 更 低 的 错误 率 。 而 且 
通过 卷 积 神经 网 络 达到 的 错误 率 已 经 非常 接近 人 工 标注 的 错误 率 了 .在 MNIST 数据 集 的 一 
万 个 测试 数据 上 ， 最 好 的 深度 学 习 算 法 只 会 比 人 工 识 别 多 错 一 张 图 片 。 

MNIST 手写 体 识别 数据 集 是 一 个 相对 简单 的 数据 集 , 在 其 他 更 加 复杂 的 图 像 识 别 数 据 


@ 数字 来 源 于 http://yann.lecun.com/exdb/mnist。 
@ 人 工 标 注 错误 率 参 见 : Simard P Lecun Y, Denker J]S. Eficient Pattern Recognition Using a New 
Transformation Distance [M]W Advances in Neural Information Processing Systems (NIPS 1992). 1993. 
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集 上 ， 卷 积 神经 网 络 有 更 加 突出 的 表现 。Cifar 数据 集 就 是 一 个 影响 力 很 大 的 图 像 分 类 数据 
集 。Cifar 数据 集 分 为 了 Cifar-10 和 Cifar-100 两 个 问题 ， 它 们 都 是 图 像 词典 项 目 (Visual 
Dictionary)“ 中 800 万 张 图 片 的 一 个 子 集 。Cifar 数据 集中 的 图 片 为 32X32 的 彩色 图 片 ， 

些 图 片 是 由 Alex Krizhevsky 教授 、Vinod Nair 博士 和 Geoffrey Hinton 教授 整理 的 。 

Cifar-10 问题 收集 了 来 自 10 个 不 同 种 类 的 60000 张 图 片 。 图 6-2 的 左 侧 显示 了 Cifar-10 
数据 集中 的 每 一 个 种 类 中 的 一 些 样 例 图 片 以 及 这 些 种 类 的 类 别名 称 ， 图 6-2 的 右 侧 给 出 
Cifar-10 中 一 张 飞机 的 图 像 。 因 为 图 像 的 像素 仅 为 32X32， 所 以 放大 之 后 图 片 是 比较 模糊 
的 ， 但 隐约 还 是 可 以 看 出 飞机 的 轮廓 。Cifar 官网 https://www.cs.toronto.edu/~kriz/cifar.html 
提供 了 不 同 格式 的 Cifar 数据 集 下 载 ， 具 体 的 数据 格式 这 里 不 再 袭 述 。 
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图 6-2 ”Cifar-10 数据 集 样 例 图 片 





和 MNIST 数据 集 类 似 ，Cifar-10 中 的 图 片 大 小 都 是 固定 的 且 每 一 张 图 片 中 仅 包含 一 
种 类 的 实体 >。 但 和 MNIST 相 比 ，Cifar 数据 集 最 大 的 区 别 在 于 图 片 由 黑白 变 成 的 彩色 ， 且 
分 类 的 难度 也 相对 更 高 ,在 Cifar-10 数据 集 上 , 人 工 标注 的 正确 率 大 概 为 94%”, 这 比 MNIST 
数据 集 上 的 人 工 表现 要 低 很 多 。 图 6-3 给 出 了 MNIST 和 Cifar-10 数据 集中 比较 难以 分 类 的 


@ 更 多 关于 图 像 词 典 项 目的 介绍 可 以 参考 其 官方 网 站 http://groups.csail.mit.edu/vision/TinyImages。 

@ MNIST 数据 集中 每 一 张 图 片 只 包含 一 个 数字 ; Cifar-10 和 Cifar-100 数据 集中 每 一 张 图 片 只 包含 一 个 种 
类 的 物体 。 

@ 国 人 工 标注 的 准确 率 来 自 技术 博客 http://torch.ch/blog/2015/07/30/cifar.html。 
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图 片 样 例 。 在 图 6-3 左 侧 的 四 张 图 片 给 出 了 Cifar-10 数据 集中 比较 难 分 类 的 图 片 ， 直 接 从 
图 片上 看 ， 人 类 也 很 难 判断 图 片上 实体 的 类 别 。 图 6-3 右 侧 的 四 张 图 片 给 出 了 MNIST 数据 
集中 难度 较 高 的 图 片 。 在 这 些 难 度 高 的 图 片上 ， 人 类 还 是 可 以 有 一 个 比较 准确 的 猜测 。 目 
前 在 Cifar-10 数据 集 上 最 好 的 图 像 识别 算法 正确 率 为 95.59% ， 达 到 这 个 正确 率 的 算法 同 
样 使 用 了 卷 积 神经 网 络 。 





图 6-3 MNIST 和 Cifar-10 数据 集中 分 类 难度 较 高 的 样 例 


无 论 是 MNIST 数据 集 还 是 Cifar 数据 集 ， 相 比 真实 环境 下 的 图 像 识 别 问题 ， 有 2 个 最 
大 的 问题 。 第 一 ， 现 实生 活 中 的 图 片 分 辨 率 要 远 高 于 32X32， 而 且 图 像 的 分 辨 率 也 不 会 是 
固定 的 。 第 三 , 现实 生活 中 的 物体 类 别 很 多 ， 无 论 是 10 种 还 是 100 种 都 远 远 不 够 ， 而 且 一 
张 图 片 中 不 会 只 出 现 一 个 种 类 的 物体 。 为 了 更 加 贴近 真实 环境 下 的 图 像 识别 问题 ， 由 斯 坦 
福 大 学 (Stanford University) 的 李 飞 飞 〈Feifei Li) 教授 带头 整理 的 InageNet 很 大 程度 地 
解决 了 这 两 个 问题 。 

ImageNet 是 一 个 基于 WordNet 的 大 型 图 像 数据 库 。 在 ImageNet 中 , 将 近 1500 万 图 片 
被 关联 到 了 WordNet 的 大 约 20000 个 名 词 同 义 词 集 上 。 目 前 每 一 个 与 ImageNet 相关 的 
WordNet 同义词 集 都 代表 了 现实 世界 中 的 一 个 实体 , 可 以 被 认为 是 分 类 问题 中 的 一 个 类 别 。 


中 具体 数字 出 自 : Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional 
Net [J]. Eprint Arxiv, 2014. 

@ WordNet 是 一 个 大 型 英语 语义 网 ， 里 面 将 名 词 、 动 词 、 形 容 词 和 副词 整理 成 了 同义词 集 ， 并 标注 了 不 
同 同义词 集 之 间 的 关系 。WordNet 具体 信息 可 以 参考 WordNet 官网 : https://wordnet.princeton.edu/。 
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ImageNet 中 的 图 片 都 是 从 互联 网 上 扑 取 下 来 的 , 并 且 通 过 亚马逊 的 人 工 标注 服务 (Amazon 
Mechanical Turk) 将 图 片 分 类 到 WordNet 的 同义词 集 上 。 在 ImageNet 的 图 片 中 ， 一 张 图 
片 中 可 能 出 现 多 个 同义词 集 所 代表 的 实体 。 

图 6-4 展示 了 ImageNet 中 的 一 张 图 片 ， 在 这 张 图 片上 用 几 个 矩形 框 出 了 不 同 实体 的 轮 
廓 。 在 物体 识别 问题 中 ,一般 将 用 于 框 出 实体 的 矩形 称 为 bounding box。 在 图 6-4 中 总 共 可 
以 找到 四 个 实体 ， 其 中 有 两 把 椅子 、 一 个 人 和 一 条 狗 。 类 似 图 6-4 中 所 示 ，ImageNet 的 部 
分 图 片 中 的 实体 轮廓 也 被 标注 了 出 来 ， 以 用 于 更 加 精确 的 图 像 识别 。 





图 6-4 ImageNet 样 例 图 片 以 及 标注 出 来 的 实体 轮廓 ” 


ImageNet 每 年 都 举办 图 像 识 别 相关 的 竞赛 (ImageNet Large Scale Visual Recognition 
Challenge，ILSVRC)， 而 且 每 年 的 党 赛 都 会 有 一 些 不 同 的 问题 ， 这 些 问题 基本 涵盖 了 图 像 
识别 的 主要 研究 方向 。ImageNet 的 官网 http://www.image-net.org/challenges/LSVRC 列 出 了 
历届 ILSVRC 竞赛 的 题目 和 数据 集 。 不 同年 份 的 ImageNet 比赛 提供 了 不 同 的 数据 集 ， 本 书 
将 着 重 介 绍 使 用 得 最 多 的 ILSVRC2012 图 像 分 类 数据 集 。 

ILSVRC2012 图 像 分 类 数据 集 的 任务 和 Cifar 数据 集 是 基本 一 致 的 , 也 是 识别 图 像 中 的 
主要 物体 。ILSVRC2012 图 像 分 类 数据 集 包 含 了 来 自 1000 个 类 别 的 120 万 张 图 片 其 中 每 
张 图 片 属 于 且 只 属于 一 个 类 别 。 因 为 ILSVRC2012 图 像 分 类 数据 集中 的 图 片 是 直接 从 互联 


ImageNet 中 图 片 的 具体 整理 和 标注 方式 可 以 参考 ;: Deng J，Dong W, Socher R, et al. JmageNet: 4 
large-scale hierarchical image database [C] Computer Vision and Pattern Recognition, 2009. CVPR 2009. 
IEEE Conference on. IEEE, 2009. 

@) 此 图 片 来 自 于 ImageNet 官方 网 站 。 
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网 上 的 取得 到 的 ， 所 以 图 片 的 大 小 从 几 千 字 节 到 几 百 万 字 节 不 等 。 

图 6-5 给 出 了 不 同 算法 在 ImageNet 图 像 分 类 数据 集 上 的 top-5 正确 率 。top-N 正确 率 指 
的 是 图 像 识别 算法 给 出 前 N 个 答案 中 有 一 个 是 正确 的 概率 。 在 图 像 分 类 问题 上 ， 很 多 学 术 
论文 都 将 前 N 个 答案 的 正确 率 作为 比较 的 方法 ， 其 中 N 的 取 值 一 般 为 3 或 5。 从 图 6-5 中 
可 以 看 出 ,在 更 加 复杂 的 ImageNet 问题 上 ， 基 于 卷 积 神经 网 络 的 图 像 识别 算法 可 以 远 远 超 
过 人 类 的 表现 。 在 图 6-5 的 左 侧 对 比 了 传统 算法 与 深度 学 习 算法 的 正确 率 。 从 图 中 可 以 看 
出 ， 深 度 学 习 ， 特 别 是 卷 积 神经 网 络 ， 给 图 像 识 别 问题 带 来 了 质 的 飞跃 。2013 年 之 后 ， 基 
本 上 所 有 的 研究 都 集中 到 了 深度 学 习 算 法 上 。 从 6.2 节 开 始 将 具体 介绍 卷 积 神经 网 络 的 基 
本 原理 ， 以 及 如 何 通 过 TensorFlow 实现 卷 积 神经 网 络 。 
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图 6-5 不 同 算法 在 ImageNet ILSVRC2012 图 像 分 类 数据 集 上 的 正确 率 


6.2 ” 卷 积 神经 网 络 简介 


在 6.1 节 中 介绍 图 像 识 别 问题 时 ， 已 经 多 次 提 到 了 卷 积 神经 网 络 。 卷 积 神经 网 络 在 6.1 
节 中 介绍 的 所 有 图 像 分 类 数据 集 上 有 非常 突出 的 表现 。 在 前 面 的 章节 中 所 介绍 的 神经 网 络 
每 两 层 之 间 的 所 有 结 点 都 是 有 边 相 连 的 ， 所 以 本 书 称 这 种 网 络 结构 为 全 连接 层 网 络 结构 。 
为 了 将 只 包含 全 连接 层 的 神经 网 络 与 卷 积 神经 网 络 、 循 环 神经 网 络 "区 分 开 ， 本 书 将 只 包含 


Q@ 第 8 章 将 介绍 循环 神经 网 络 。 
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全 连接 层 的 神经 网 络 称 之 为 全 连接 神经 网 络 。 在 第 4 章 和 第 5 章 中 介绍 的 神经 网 络 都 为 全 
连接 神经 网 络 。 在 这 一 节 中 将 讲解 卷 积 神经 网 络 与 全 连接 神经 网 络 的 差异 ， 并 介绍 组 成 一 
个 卷 积 神经 网 络 的 基本 网 络 结构 。 图 6-6 显示 了 全 连接 神经 网 络 与 卷 积 神经 网 络 的 结构 对 
比 图 。 











WW 


~ Nl 


全 连接 神经 网 络 (a) 卷 积 神经 网 络 (b) 
图 6-6 全 连接 神经 网 络 与 卷 积 神经 网 络 结构 示意 图 


虽然 图 6-6 中 显示 的 全 连接 神经 网 络 结构 和 卷 积 神经 网 络 的 结构 直观 上 差异 比较 大 ， 
但 实际 上 它们 的 整体 架构 是 非常 相似 的 。 从 图 6-6 中 可 以 看 出 ， 卷 积 神经 网 络 也 是 通过 一 
层 一 层 的 节点 组 织 起 来 的 。 和 全 连接 神经 网 络 一 样 ， 卷 积 神经 网 络 中 的 每 一 个 节点 都 是 一 
个 神经 元 9。 在 全 连接 神经 网 络 中 ,每 相 邻 两 层 之 间 的 节点 都 有 边 相 连 ， 于 是 一 般 会 将 每 一 
层 全 连接 层 中 的 节点 组 织 成 一 列 ， 这 样 方便 显示 连接 结构 。 而 对 于 卷 积 神经 网 络 ， 相 邻 两 
层 之 间 只 有 部 分 节点 相连 ， 为 了 展示 每 一 层 神经 元 的 维度 ， 一 般 会 将 每 一 层 卷 积 层 的 节点 
组 织 成 一 个 三 维和 矩阵 。 

除了 结构 相似 , 卷 积 神经 网 络 的 输入 输出 以 及 训练 流程 与 全 连接 神经 网 络 也 基本 一 致 。 
以 图 像 分 类 为 例 ， 卷 积 神经 网 络 的 输入 层 就 是 图 像 的 原始 像素 ， 而 输出 层 中 的 每 一 个 节点 
代表 了 不 同类 别 的 可 信 度 。 这 和 全 连接 神经 网 络 的 输入 输出 是 一 致 的 。 类 似 的 ， 第 4 章 中 
介绍 的 损失 函数 以 及 参数 的 优化 过 程 也 都 适用 于 卷 积 神经 网 络 。 在 后 面 的 章节 中 会 看 到 ， 
在 TensorFlow 中 训练 一 个 卷 积 神经 网 络 的 流程 和 训练 一 个 全 连接 神经 网 络 没 有 任何 区 别 。 
卷 积 神经 网 络 和 全 连接 神经 网 络 的 唯一 区 别 就 在 于 神经 网 络 中 相 邻 两 层 的 连接 方式 。 在 进 
一 步 介 绍 卷 积 神经 网 络 的 连接 结构 之 前 ， 本 节 将 先 介绍 为 什么 全 连接 神经 网 络 无 法 很 好 地 
处 理 图 像 数 据 。 

使 用 全 连接 神经 网 络 处 理 图 像 的 最 大 问题 在 于 全 连接 层 的 参数 太 多 。 对 于 MNIST 数 
据 ， 每 一 张 图 片 的 大 小 是 28x28x1， 其 中 28x28 为 图 片 的 大 小 ，x1 表示 图 像 是 黑白 的 ， 只 
有 一 个 色彩 通道 。 假设 第 一 层 隐 藏 层 的 节点 数 为 500 个 ， 那 么 一 个 全 链接 层 的 神经 网 络 将 
有 28x28x500+500=392500 个 参数 。 当 图 片 更 大 时 ， 比 如 在 Cifar-10 数据 集中 , 图片 的 大 小 























Q@ 在 第 4 章 的 图 4-5 中 介绍 了 神经 元 的 结构 。 
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为 32x32x3, 其 中 32x32 表示 图 片 的 大 小 ,x3 表示 图 片 是 通过 红 绿 蓝 三 个 色彩 通道 (channel) 
表示 的 "。 这 样 输入 层 就 有 3072 个 节点 ， 如 果 第 一 层 全 连接 层 仍然 是 500 个 节点 ， 那 么 这 
一 层 全 链接 神经 网 络 将 有 3072x500+500~x150 万 个 参数 。 参 数 增多 除了 导致 计算 速度 减 慢 ， 
还 很 容易 导致 过 拟 合 问题 。 所 以 需要 一 个 更 合理 的 神经 网 络 结构 来 有 效 地 减少 神经 网 络 中 
参数 个 数 。 卷 积 神经 网 络 就 可 以 达到 这 个 目的 。 

图 6-7 给 出 了 一 个 更 加 具体 的 卷 积 神经 网 络 架构 图 。 





卷 积 层 1 池 化 层 1 卷 积 层 2 池 化 层 2 全 连接 层 1 全 连接 层 2 


输入 图 片 
上 
“OBE +Hho 
分 类 结果 


上 














图 6-7 用 于 图 像 分 类 问题 的 一 种 卷 积 神经 网 络 架构 图 


在 卷 积 神 经 网 络 的 前 几 层 中 ， 每 一 层 的 节点 都 被 组 织 成 一 个 三 维 矩 阵 。 比 如 处 理 
Cifar-10 数据 集中 的 图 片 时 , 可 以 将 输入 层 组 织 成 一 个 32x32x3 的 三 维和 矩阵 。 图 6-7 中 虚线 
部 分 展示 了 卷 积 神经 网 络 的 一 个 连接 示意 图 ， 从 图 中 可 以 看 出 卷 积 神经 网 络 中 前 几 层 中 每 
一 个 节点 上 只 和 上 一 层 中 部 分 的 节点 相连 。 卷 积 神经 网 络 的 具体 连接 方式 将 在 6.3 节 中 介绍 。 
一 个 卷 积 神经 网 络 主要 由 以 下 5 种 结构 组 成 : 

1. 输入 层 。 输 入 层 是 整个 神经 网 络 的 输入 ， 在 处 理 图 像 的 卷 积 神经 网 络 中 ， 它 一 般 代 
表 了 一 张 图 片 的 像素 和 矩阵。 比如 在 图 6-7 中 ， 最 左 侧 的 三 维 矩 阵 就 可 以 代表 一 张 图 片 。 其 
中 三 维和 矩阵 的 长 和 宽 代 表 了 图 像 的 大 小 ， 而 三 维和 矩阵 的 深度 代表 了 图 像 的 色彩 通道 
(channel)。 比 如 黑白 图 片 的 深度 为 1， 而 在 RGB 色彩 模式 下 ， 图 像 的 深度 为 3。 从 输入 层 
开始 ， 卷 积 神经 网 络 通过 不 同 的 神经 网 络 结构 将 上 一 层 的 三 维和 矩阵 转化 为 下 一 层 的 三 维和 矩 
阵 ， 直 到 最 后 的 全 连接 层 。 

2. 卷 积 层 。 从 名 字 就 可 以 看 出 ， 卷 积 层 是 一 个 卷 积 神经 网 络 中 最 为 重要 的 部 分 。 和 传 
统 全 连接 层 不 同 ， 卷 积 层 中 每 一 个 节点 的 输入 只 是 上 一 层 神经 网 络 的 一 小 块 ， 这 个 小 块 常 
用 的 大 小 有 3X3 或 者 SX5。 卷 积 层 试图 将 神经 网 络 中 的 每 一 小 块 进行 更 加 深入 地 分 析 从 


中 在 RGB 色彩 模式 下 ,一 幅 完整 的 图 像 是 由 红色 、 绿 色 和 蓝 色 3 个 通道 组 成 的 。 因 为 每 个 通道 在 每 个 像 
素 点 上 都 有 亮度 值 ， 所 以 整个 图 片 就 可 以 表示 成 一 个 三 维 矩 阵 。 
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而 得 到 抽象 程度 更 高 的 特征 。 一 般 来 说 ， 通 过 卷 积 层 处 理 过 的 节点 矩阵 会 变 得 更 深 ， 所 以 
在 图 6-7 中 可 以 看 到 经 过 卷 积 层 之 后 的 节点 矩阵 的 深度 会 增加 。 

3. 池 化 层 (Pooling)。 池 化 层 神 经 网 络 不 会 改变 三 维和 矩阵 的 深度 ， 但 是 它 可 以 缩小 矩 
阵 的 大 小 。 池 化 操作 可 以 认为 是 将 一 张 分 辩 率 较 高 的 图 片 转化 为 分 辨 率 较 低 的 图 片 。 通 过 
池 化 层 ， 可 以 进一步 缩小 最 后 全 连接 层 中 节点 的 个 数 ， 从 而 达到 减少 整个 神经 网 络 中 参数 
的 目的 。 

4. 全 连接 层 。 如 图 6-7 所 示 ， 在 经 过 多 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 在 卷 积 神经 网 
络 的 最 后 一 般 会 是 由 1 到 2 个 全 连接 层 来 给 出 最 后 的 分 类 结果 。 经 过 几 轮 卷 积 层 和 池 化 层 
的 处 理 之 后 ， 可 以 认为 图 像 中 的 信息 已 经 被 抽象 成 了 信息 含量 更 高 的 特征 。 我 们 可 以 将 卷 
积 层 和 池 化 层 看 成 自动 图 像 特征 提取 的 过 程 。 在 特征 提取 完成 之 后 ， 仍 然 需要 使 用 全 连接 
层 来 完成 分 类 任务 。 

5. Softmax 层 。 和 第 4 章 中 介绍 的 一 样 ，Softmax 层 主要 用 于 分 类 问题 。 通 过 Softmax 
层 ， 可 以 得 到 当前 样 例 属于 不 同 种 类 的 概率 分 布 情况 。 

在 卷 积 神经 网 络 中 使 用 到 的 输入 层 、 全 连接 层 和 Softmax 层 在 第 4 章 中 都 有 过 详细 的 
介绍 ， 这 里 不 再 歼 述 。 在 下 面 的 6.3 节 中 将 详细 介绍 卷 积 神经 网 络 中 特殊 的 两 个 网 络 结构 
一 一 卷 积 层 和 池 化 层 。 


6.3 ” 卷 积 神经 网 络 常用 结构 


6.2 节 已 经 大 致 介绍 了 卷 积 层 和 池 化 层 的 概念 ， 在 本 节 中 将 具体 介绍 这 两 种 网 络 结构 。 
在 下 面 的 两 个 小 节 中 将 分 别 介绍 卷 积 层 和 池 化 层 的 网 络 结构 以 及 前 向 传播 的 过 程 ， 并 通过 
TensorFlow 实现 这 些 网 络 结构 。 本 书 中 将 不 会 介绍 优化 卷 积 神经 网 络 的 数学 公式 ， 但 通过 
TensorFlow 可 以 很 容易 地 完成 优化 的 过 程 。 


6.3.1 ” 卷 积 层 


本 小 节 将 详细 介绍 卷 积 层 的 结构 以 及 其 前 向 传播 的 算法 。 图 6-8 中 显示 了 卷 积 层 神经 
网 络 结构 中 最 重要 的 部 分 ， 这 个 部 分 被 称 之 为 过 滤器 (filter) 或 者 内 核 〈kernel)。 因 为 
TensorFlow 文档 中 将 这 个 结构 称 之 为 过 滤器 (filter)， 所 以 在 本 书 中 将 统称 这 个 结构 为 过 滤 
器 。 如 图 6-8 所 示 ， 过 滤器 可 以 将 当前 层 神经 网 络 上 的 一 个 子 节点 矩阵 转化 为 下 一 层 神 经 
网 络 上 的 一 个 单位 节点 矩阵 。 单 位 节点 德 阵 指 的 是 一 个 长 和 宽 都 为 1， 但 深度 不 限 的 节点 
矩阵。 
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图 6-8 ” 卷 积 层 过 滤器 (filter) 结构 示意 图 ” 


在 一 个 卷 积 层 中 ， 过 滤器 所 处 理 的 节点 矩阵 的 长 和 宽 都 是 由 人 工 指定 的 ， 这 个 节点 矩 
阵 的 尺寸 也 被 称 之 为 过 滤器 的 尺寸 。 常 用 的 过 滤器 尺寸 有 3X3 或 5X5。 因 为 过 滤器 处 理 
的 矩阵 深度 和 当前 层 神 经 网 络 节点 矩阵 的 深度 是 一 致 的 ， 所 以 虽然 节点 矩阵 是 三 维 的 ， 但 
过 滤器 的 尺寸 只 需要 指定 两 个 维度 。 过 滤器 中 另外 一 个 需要 人 工 指定 的 设置 是 处 理 得 到 的 
单位 节点 矩阵 的 深度 ， 这 个 设置 称 为 过 滤器 的 深度 。 注 意 过 滤器 的 尺寸 指 的 是 一 个 过 滤器 
输入 节点 矩阵 的 大 小 ， 而 深度 指 的 是 输出 单位 节点 矩阵 的 深度 。 如 图 6-8 所 示 ， 左 侧 小 矩 
阵 的 尺寸 为 过 滤器 的 尺寸 ,而 右 侧 单位 矩阵 的 深度 为 过 滤器 的 深度 。6.4 节 将 通过 一 些 经 典 
卷 积 神经 网 络 结构 来 了 解 如 何 设 置 每 一 层 卷 积 层 过 滤器 的 尺寸 和 深度 。 

如 图 6-8 所 示 ， 过 滤器 的 前 向 传播 过 程 就 是 通过 左 侧 小 矩阵 中 的 节点 计算 出 右 侧 单位 
矩阵 中 节点 的 过 程 。 为 了 直观 地 解释 过 滤器 的 前 向 传播 过 程 ， 在 下 面 的 篇 幅 中 将 给 出 一 个 
具体 的 样 例 。 在 这 个 样 例 中 将 展示 如 何 通过 过 滤器 将 一 个 2X2X3 的 节点 矩阵 变化 为 一 个 
1X1X5 的 单位 节点 矩阵 。 一 个 过 滤器 的 前 向 传播 过 程 和 全 连接 层 相似 ， 它 总 共 需 要 
2x2x3x5+5=65 个 参数 ， 其 中 最 后 的 +5 为 偏 置 项 参数 的 个 数 。 假 设 使 用 wi,y,: 来 表示 对 于 输 
出 单位 节点 矩阵 中 的 第 i 个 节点 ， 过 滤器 输入 节点 (xwy,z) 的 权重 ,使 用 5 表示 第 i 个 输出 
节点 对 应 的 偏 置 项 参数 ， 那 么 单位 矩阵 中 的 第 i 个 节点 的 取 值 gQ) 为 : 

re 
g(i)= (2 2 ars x wy +b 
pe er 

其 中 qx 为 过 滤器 中 节点 (xwy,z) 的 取 值 ，f 为 激活 函数 。 图 6-9 展示 了 在 给 定 a， w 和 
加 的 情况 下 ， 使 用 ReLU 作为 激活 函数 时 g(0) 的 计算 过 程 。 在 图 6-9 的 左 侧 给 出 了 a 入 
的 取 值 ， 这 里 通过 3 个 二 维 矩 阵 来 表示 一 个 三 维 矩 阵 的 取 值 ， 其 中 每 一 个 二 维和 矩阵 表示 三 
维 矩阵 在 某 一 个 深度 上 的 取 值 。 图 6-9 中 。， 符 号 表示 点 积 ， 也 就 是 矩阵 中 对 应 元 素 乘 积 的 
和 。 图 6-9 的 右 侧 显示 了 g(0) 的 计算 过 程 。 如 果 给 出 w! 到 w: 和 如 到 并， 那么 也 可 以 类 似 
地 计算 出 g(1) 到 g(4) 的 取 值 。 如 果 将 a 和 wi 组织 成 两 个 向 量 ， 那 么 一 个 过 滤器 的 计算 过 程 


Q@ 此 图 片 来 自 斯 坦 福 大 学 在 线 卷 积 神经 网 络 教程 http://cs231n.github.io/convolutional-networks/。 
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完全 可 以 通过 第 3 章 中 介绍 的 向 量 乘法 来 完成 。 











al:, :,0] , : 

电大 g(0) = f{[ix2+2x0+0x1+(-1)x(-1)]+ 

四 四 四 四 | | [2x(-2)+1x2+(-1)x0+(-2)x1]+ 
。 本 。 洲 。 EN! [ix0+0x1+2x(-1)+1x(-D)]+1} 

[2|0 | [2|2| oli =/{3+(-D+(-3)+1) 

13 ba [231-4] =/{-3}=0 

wof:, ;, 0 wof:, :, 1] [i 

| 





6-9 ”使 用 过 滤器 计算 g(0) 取 值 的 过 程 示 意图 


上 面 的 样 例 已 经 介绍 了 在 卷 积 层 中 计算 一 个 过 滤器 的 前 向 传播 过 程 。 卷 积 层 结 构 的 前 
问 传播 过 程 就 是 通过 将 一 个 过 滤器 从 神经 网 络 当前 层 的 左上 角 移动 到 右 下 角 ， 并 且 在 移动 
中 计算 每 一 个 对 应 的 单位 矩阵 得 到 的 。 图 6-10 展示 了 卷 积 层 结构 前 向 传播 的 过 程 。 为 了 更 
好 地 可 视 化 过 滤器 的 移动 过 程 ， 图 6-10 中 使 用 的 节点 矩阵 深度 都 为 1。 在 图 6-10 中 ， 展 示 
了 在 3X3 矩阵 上 使 用 2X2 过 滤器 的 卷 积 层 前 向 传播 过 程 。 在 这 个 过 程 中 ， 首 先 将 这 个 过 
滤器 用 于 左上 角子 矩阵 ， 然 后 移动 到 左下 角 抢 阵 ， 再 到 右上 角 和 矩阵 ， 最 后 到 右 下 角 和 矩阵 。 
过 滤器 每 移动 一 次 ， 可 以 计算 得 到 一 个 值 〈 当 深度 为 k 时 会 计算 出 k 个 值 )。 将 这 些 数值 拼 
接 成 一 个 新 的 矩阵 ， 就 完成 了 卷 积 层 前 向 传播 的 过 程 。 图 6-10 的 右 侧 显示 了 过 滤器 在 移动 
过 程 中 计算 得 到 的 结果 与 新 矩阵 中 节点 的 对 应 关系 。 





图 6-10 卷 积 层 前 向 传播 过 程 示意 图 


当 过 滤器 的 大 小 不 为 1X1 时 , 卷 积 层 前 向 传播 得 到 的 矩阵 的 尺寸 要 小 于 当前 层 矩 阵 的 
尺寸 。 如 图 6-10 所 示 ， 当 前 层 矩 阵 的 大 小 为 3X3《〈 图 6-10 左 侧 矩阵 )， 而 通过 卷 积 层 前 向 
传播 算法 之 后 ， 得 到 的 矩阵 大 小 为 2X2〔〈 图 6-10 右 侧 矩 阵 )。 为 了 避免 尺寸 的 变化 ， 可 以 
在 当前 层 矩 阵 的 边界 上 加 入 全 0 填充 〈zero-padding)。 这 样 可 以 使 得 卷 积 层 前 向 传播 结果 
和 矩阵 的 大 小 和 当前 层 矩 阵 保 持 一 致 。 图 6-11 显示 了 使 用 全 0 填充 后 卷 积 层 前 向 传播 过 程 示 
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意图 。 从 图 中 可 以 看 出 ， 加 入 一 层 全 0 填充 后 ， 得 到 的 结构 矩阵 大 小 就 为 3X3 了 。 





图 6-11 使 用 了 全 0 填充 〈zero-padding) 的 卷 积 层 前 向 传播 示意 图 ” 
除了 使 用 全 0 填充 ， 还 可 以 通过 设置 过 滤器 移动 的 步 长 来 调整 结果 矩阵 的 大 小 。 在 图 
6-10 和 图 6-11 中 ,过 滤器 每 次 都 只 移动 一 格 。 图 6-12 中 显示 了 当 移 动 步 长 为 2 且 使 用 全 0 
填充 时 ， 卷 积 层 前 向 传播 的 过 程 。 





图 6-12 过 滤器 移动 步 长 为 2 且 使 用 全 0 填充 时 卷 积 层 前 向 传播 过 程 示意 图 


从 图 6-12 上 可 以 看 出 ， 当 长 和 宽 的 步 长 均 为 2 时 ， 过 滤器 每 隔 2 步 计 算 一 次 结果 ， 所 
以 得 到 的 结果 矩阵 的 长 和 宽 也 就 都 只 有 原来 的 一 半 。 下 面 的 公式 给 出 了 在 同时 使 用 全 0 填 
充 时 结果 矩阵 的 大 小 。 
Outiongth = [inengen / stridelength | 
Outwidth = imwiaw 下 stridewia | 


其 中 outpeight 表示 输出 层 矩 阵 的 长 度 , 它 等 于 输入 层 矩 阵 长 度 除 以 长 度 方 向 上 的 步 长 的 


Q@ 此 处 全 0 填充 的 方式 和 TensorFlow 中 实现 的 方式 略 有 不 同 ， 但 是 原理 是 一 样 的 。 
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向 上 取 整 值 。 类 似 的 ，outwiat 表示 输出 层 矩 阵 的 宽度 ， 它 等 于 输入 层 和 矩阵 宽度 除 以 宽度 方 
向 上 的 步 长 的 向 上 取 整 值 。 如 果 不 使 用 全 0 填充 ， 下 面 的 公式 给 出 了 结果 矩阵 的 大 小 。 
Outlength = [Gimengen — filterengn +1)/ Stridelengh | 
Outwidh =| (inwidt — filterwidn + 1)/ stridewiarn | 
在 图 6-10、 图 6-11 以 及 图 6-12 中 ， 只 讲解 了 移动 过 滤器 的 方式 ， 没 有 涉及 到 过 滤器 
中 的 参数 如 何 设 定 ， 所 以 在 这 些 图 片 中 结果 矩阵 中 并 没有 填 上 具体 的 值 。 在 卷 积 神经 网 络 
中 ， 每 一 个 卷 积 层 中 使 用 的 过 滤器 中 的 参数 都 是 一 样 的 。 这 是 卷 积 神经 网 络 一 个 非常 重要 
的 性 质 。 从 直观 上 理解 ， 共 享 过 滤器 的 参数 可 以 使 得 图 像 上 的 内 容 不 受 位 置 的 影响 。 以 
MNIST 手写 体 数字 识别 为 例 ， 无 论 数字 “1” 出 现在 左上 和 角 还 是 右 下 角 ， 图 片 的 种 类 都 是 
不 变 的 。 因 为 在 左上 和 角 和 右 下 角 使 用 的 过 滤器 参数 相同 ， 所 以 通过 卷 积 层 之 后 无 论 数 字 在 
图 像 上 的 哪个 位 置 ， 得 到 的 结果 都 一 样 。 
共享 每 一 个 卷 积 层 中 过 滤器 中 的 参数 可 以 巨 幅 减少 神经 网 络 上 的 参数 。 以 Cifar-10 问 
题 为 例 ， 输 入 层 矩 阵 的 维度 是 32x32x3。 假 设 第 一 层 卷 积 层 使 用 尺寸 为 5x5， 深 度 为 16 的 
过 滤器 ， 那 么 这 个 卷 积 层 的 参数 个 数 为 5x5x3x16+16=1216 个 。6.2 节 中 提 到 过 ， 使 用 500 
个 隐藏 节点 的 全 连接 层 将 有 1.5 百 万 个 参数 。 相 比 之 下 ， 卷 积 层 的 参数 个 数 要 远 远 小 于 全 
连接 层 。 而 且 卷 积 层 的 参数 个 数 和 图 片 的 大 小 无 关 ， 它 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 
层 节点 矩阵 的 深度 有 关 。 这 使 得 卷 积 神经 网 络 可 以 很 好 地 扩展 到 更 大 的 图 像 数 据 上 。 
结合 过 滤器 的 使 用 方法 和 参数 共享 的 机 制 ， 图 6-13 给 出 了 使 用 了 全 0 填充 、 步 长 为 2 
的 卷 积 层 前 向 传播 的 计算 流程 。 























图 6-13 卷 积 层 前 向 传播 过 程 样 例 图 


图 6-13 给 出 了 过 滤器 上 权重 的 取 值 以 及 偏 置 项 的 取 值 ,通过 图 6-9 中 所 示 的 计算 方法 ， 
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可 以 得 到 每 一 个 格子 的 具体 取 值 。 下 面 的 公式 给 出 了 左上 角 格 子 取 值 的 计算 方法 ， 其 他 格 
子 可 以 依次 类 推 。 
ReLU(Ox1+0x(-l)+0x0+1*2+1)= ReLU(3)=3 
TensorFlow 对 卷 积 神经 网 络 提供 了 非常 好 的 支持 ， 下 面 的 程序 实现 了 一 个 卷 积 层 的 前 
向 传播 过 程 。 从 以 下 代码 可 以 看 出 ， 通 过 TensorFlow 实现 卷 积 层 是 非常 方便 的 。 





CR NT 和 
ey 未 人 
3 本 pa 


Ny 2k, i 和 


6.3.2” 池 化 层 
6.2 节 介绍 过 卷 积 神经 网 络 的 大 致 架构 。 从 图 6-7 中 可 以 看 出 ,在 卷 积 层 之 间 往 往 会 加 
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上 一 个 池 化 层 (pooling layer)。 池 化 层 可 以 非常 有 效 地 缩小 矩阵 的 尺寸 "， 从 而 减少 最 后 全 连 
接 层 中 的 参数 。 使 用 池 化 层 既 可 以 加 快 计算 速度 也 有 防止 过 拟 合 问题 的 作用 ”。 

和 6.3.1 小 节 中 介绍 的 卷 积 层 类 似 , 池 化 层 前 向 传播 的 过 程 也 是 通过 移动 一 个 类 似 过 滤 
器 的 结构 完成 的 。 不 过 池 化 层 过 滤器 中 的 计算 不 是 节点 的 加 权 和 ， 而 是 采用 更 加 简单 的 最 
大 值 或 者 平均 值 运算 。 使 用 最 大 值 操作 的 池 化 层 被 称 之 为 最 大 池 化 层 (max pooling)， 这 是 
被 使 用 得 最 多 的 池 化 层 结构 。 使 用 平均 值 操作 的 池 化 层 被 称 之 为 平均 池 化 层 (average 
pooling)。 其 他 池 化 层 在 实践 中 使 用 的 比较 少 ， 本 书 不 做 过 多 的 介绍 。 

与 卷 积 层 的 过 滤器 类 似 ， 池 化 层 的 过 滤器 也 需要 人 工 设 定 过 滤器 的 尺寸 、 是 否 使 用 全 
0 填充 以 及 过 滤器 移动 的 步 长 等 设置 ， 而 且 这 些 设置 的 意义 也 是 一 样 的 。 卷 积 层 和 池 化 层 
中 过 滤器 移动 的 方式 是 相似 的 ， 唯 一 的 区 别 在 于 卷 积 层 使 用 的 过 滤器 是 横 跨 整个 深度 的 ， 
而 池 化 层 使 用 的 过 滤器 只 影响 一 个 深度 上 的 节点 。 所 以 池 化 层 的 过 滤器 除了 在 长 和 宽 两 个 
维度 移动 之 外 ， 它 还 需要 在 深度 这 个 维度 移动 。 图 6-14 展示 了 一 个 最 大 池 化 层 前 向 传播 计 
算 过 程 。 





图 6-14 3X3X2 节点 矩阵 经 过 全 0 填充 上 且 步 长 为 2 的 最 大 池 化 层 前 向 传播 过 程 示意 图 。 


Q@ 池 化 层 主 要 用 于 减 小 矩阵 的 长 和 宽 。 虽 然 池 化 层 也 可 以 减 小 矩阵 深度 ， 但 是 实践 中 一 般 不 会 这 样 使 用 。 

@ 有 研究 指出 池 化 层 对 模型 效果 的 影响 不 大 ， 具 体 细节 可 以 参考 : Springenberg JT Dosovitskiy A, Brox T, 
et al. Striving for Simplicity: The 411 Convolutional Net [加 . Eprint Arxiv, 2014. 不 过 目前 主流 的 卷 积 神经 网 
络 模 型 中 都 含有 池 化 层 。 


147 


wwaibbt.com DOODOODODOO 


TensorFlow: 实战 Google 深度 学 习 框 架 


在 图 6-14 中 ， 不 同 颜色 或 者 不 同 线段 (虚线 或 者 实 线 ) 代表 了 不 同 的 池 化 层 过 滤器 。 
从 图 6-14 中 可 以 看 出 ， 池 化 层 的 过 滤器 除了 在 长 和 宽 的 维度 上 移动 ， 它 还 需要 在 深度 的 维 
度 上 移动 。 下 面 的 TensorFlow esol 






1 i 各 六 了 hy 


对 比 池 化 层 和 卷 积 层 前 向 传播 在 TensorFlow 中 的 实现 ， 可 以 发 现 函 数 的 参数 形式 是 相 
似 的 。 在 给 nn.max_pool 函数 中 ,首先 需要 传 入 当前 层 的 节点 矩阵 ， 这 个 矩阵 是 一 个 四 维和 托 
阵 ， 格 式 和 ttnn.conv2d 函数 中 的 第 一 个 参数 一 致 。 第 二 个 参数 为 过 滤器 的 尺寸 。 虽 然 给 出 
的 是 一 个 长 度 为 4 的 一 维 数组 ， 但 是 这 个 数组 的 第 一 个 和 最 后 一 个 数 必须 为 1。 这 意味 着 
池 化 层 的 过 滤器 是 不 可 以 跨 不 同 输入 样 例 或 者 节点 敌阵 深度 的 。 在 实际 应 用 中 使 用 得 最 多 
的 池 化 层 过 滤器 尺寸 为 [1,2,2,1] 或 者 [1,3,3,1]。 

给 nn.max_pool 函数 的 第 三 个 参数 为 步 长 ， 它 和 tfnn.conv2d 函数 中 步 长 的 意义 是 一 样 
的 ， 市 且 第 一 维和 最 后 一 维 也 只 能 为 1。 这 意味 着 在 TensorFlow 中 ， 池 化 层 不 能 减少 节点 
和 矩阵 的 深度 或 者 输入 样 例 的 个 数 。tf.nn.max_pool 函数 的 最 后 一 个 参数 指定 了 是 否 使 用 全 0 
填充 。 这 个 参数 也 只 有 两 种 取 值 一 一 VALID 或 者 SAME， 其 中 VALID 表示 不 使 用 全 0 填 
充 ，SAME 表示 使 用 全 0 填充 。TensorFlow 还 提供 了 从 nn.avg_pool 来 实现 平均 池 化 层 。 
tf.nn.avg_pool 函数 的 调用 格式 和 nn.max_pool 函数 是 一 致 的 。 


6.4 ”经 典 卷 积 网 络 模型 


在 6.3 小 节 中 介绍 了 卷 积 
通过 这 些 网 络 结构 任意 组 合 得 到 的 神经 网 络 有 无 限 多 种 ， bed 
实 的 图 像 处 理 问 题 呢 ? 这 一 节 将 介绍 一 些 经 典 的 卷 积 神经 网 络 的 网 络 结构 。 通 过 这 些 经 典 
的 卷 积 神经 网 络 的 网 络 结构 可 以 总 结 出 卷 积 神经 网 络 结构 设计 的 一 些 模式 。 在 6.4.1 小 节 中 
将 具体 介绍 LeNet-5 模型 ， 并 给 出 一 个 完整 的 TensorFlow 程序 来 实现 LeNet-5 模型 。 通 过 
这 个 模型 , 将 给 出 卷 积 神经 网 络 结构 设计 的 一 个 通用 模式 。 然 后 6.4.2 小 节 将 介绍 设计 卷 积 
神经 网 络 结构 的 另外 一 种 思路 一 一 Inception 模型 。 这 个 小 节 将 简单 介绍 TensorFlow-Slim 工 
具 ， 并 通过 这 个 工具 实现 谷歌 提出 的 Inception-v3 模型 中 的 一 个 模块 。 
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6.4.1 LeNet-5 模型 


LeNet-5 模型 是 Yann LeCun 教授 于 1998 年 在 论文 Gradient-based learning applied to 
document recognition" 中 提出 的 ， 它 是 第 一 个 成 功 应 用 于 数字 识别 问题 的 卷 积 神经 网 络 。 在 
MNIST 数据 集 上 ，LeNet-5 模型 可 以 达到 大 约 99.2% 的 正确 率 。LeNet-5 模型 总 共有 7 层 ， 
图 6-15 展示 了 LeNet-5 模型 的 架构 。 


C3:1. maps 16@ 10x10 
S4:1, 


Bho 


C1: feature maps 
6@28x28 


Subsampiing Convolutions Subsampling 


图 6-15 LeNet-5 模型 结构 图 


在 下 面 的 篇 幅 中 将 详细 介绍 LeNet-5 模型 每 一 层 的 结构 %。 

第 一 层 ， 卷 积 层 

这 一 层 的 输入 就 是 原始 的 图 像 像 素 ，LeNet-5 模型 接受 的 输入 层 大 小 为 32x32x1。 第 一 
个 卷 积 层 过 滤器 的 尺寸 为 5x5， 深 度 为 6， 不 使 用 全 0 填充 ， 步 长 为 1。 因 为 没有 使 用 全 0 
填充 ， 所 以 这 一 层 的 输出 的 尺寸 为 32-5+1=28， 深 度 为 6。 这 一 个 卷 积 层 总 共有 
5x5x1x6+6=156 个 参数 ， 其 中 6 个 为 偏 置 项 参数 。 因 为 下 一 层 的 节点 矩阵 有 28x28x6=4704 
个 节点 ， 每 个 节点 和 5x5=25 个 当前 层 节 点 相连 ， 所 以 本 层 卷 积 层 总 共有 
4704x(25+1)=122304 个 连接 。 

第 二 层 ， 池 化 层 

这 一 层 的 输入 为 第 一 层 的 输出 ， 是 一 个 28x28x6 的 节点 矩阵 。 本 层 采 用 的 过 滤器 大 小 
为 2x2， 长 和 宽 的 步 长 均 为 2， 所 以 本 层 的 输出 矩阵 大 小 为 14x14x6。 原 始 的 LeNet-5 模型 





© LecunY Bottou L, Bengio Y et al. Gradient-based learning applied to document recognition [J]. Proceedings 
of the IEEE, 1998. 

@ 此 图 片 来 自 论文 Gradient-based learning applied to document recognition。 

@ 论文 GradientBased Learning Applied to Document Recognition 提出 的 LeNet-5 模型 中 ， 卷 积 层 和 池 化 层 
的 实现 与 6.3 节 中 介绍 的 TensorFlow 的 实现 有 细微 的 区 别 ， 本 书 不 过 多 的 讨论 具体 细节 ， 而 是 着 重 介 
绍 模型 的 整体 框架 。 
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中 使 用 的 过 滤器 和 6.3.2 小 节 介绍 的 有 些 细微 差别 ， 本 书 不 做 具体 介绍 。 

第 三 层 ， 卷 积 层 

本 层 的 输入 矩阵 大 小 为 14x14x6， 使 用 的 过 滤器 大 小 为 Sx5， 深 度 为 16。 本 层 不 使 用 
全 0 填充， 步 长 为 1。 本 层 的 输出 矩阵 大 小 为 10x10x16。 按 照 标准 的 卷 积 层 ， 本 层 应 该 有 
5x5x6x16+16=2416 个 参数 ，10x10x16x (25+1) =41600 个 连接 。 

第 四 层 ， 池 化 层 

本 层 的 输入 矩阵 大 小 为 10x10x16， 采 用 的 过 滤器 大 小 为 2x2， 步 长 为 2。 本 层 的 输出 
矩阵 大 小 为 5x5x16。 

第 五 层 ， 全 连接 层 

本 层 的 输入 矩阵 大 小 为 5x5x16， 在 LeNet-5 模型 的 论文 中 将 这 一 层 称 为 卷 积 层 ， 但 是 
因为 过 滤器 的 大 小 就 是 5x5， 所 以 和 全 连接 层 没有 区 别 ， 在 之 后 的 TensorFlow 程序 实现 中 
也 会 将 这 一 层 看 成 全 连接 层 。 如 果 将 5x5x16 矩阵 中 的 节点 拉 成 一 个 向 量 , 那么 这 一 层 和 在 
第 4 章 中 介绍 的 全 连接 层 输入 就 一 样 了 。 本 层 的 输出 节点 个 数 为 120， 总 共有 
5x5x16x120+120=48120 个 参数 。 

第 六 层 ， 全 连接 层 

本 层 的 输入 节点 个 数 为 120 个 , 输出 节点 个 数 为 84 个 ， 总 共 参 数 为 120x84+84=10164 
这 

第 七 层 ， 全 连接 层 

本 层 的 输入 节点 个 数 为 84 个 ， 输 出 节点 个 数 为 10 个 ， 总 共 参 数 为 84x10+10=850 个 。 

上 面 介绍 了 LeNet-5 模型 每 一 层 结构 和 设置 ， 下 面 给 出 一 个 TensorFlow 的 程序 来 实现 
一 个 类 似 LeNet-5 模型 的 卷 积 神经 网 络 来 解决 MNIST 数字 识别 问题 。 通 过 TensorFlow 训 
练 卷 积 神经 网 络 的 过 程 和 第 5 章 中 介绍 的 训练 全 连接 神经 网 络 是 完全 一 样 的。 损失 函数 
的 计算 、 反 向 传播 过 程 的 实现 都 可 以 复 用 5.5 节 中 给 出 的 mnist_train.py 程序 。 唯 一 的 区 
别 在 于 因为 卷 积 神经 网 络 的 输入 层 为 一 个 三 维和 矩阵 , 所 以 需要 调整 一 下 输入 数据 的 格式 : 


hi 





@ LeNet-5 模型 论文 中 最 后 一 层 输出 层 的 结构 和 全 连接 层 有 区 别 ， 但 我 们 这 用 全 连接 层 近似 的 表示 。 
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在 调整 完 输 入 格式 之 后 ， 只 需要 在 程序 mnist_inference.py 中 实现 类 似 LeNet-5 模型 结 
构 的 前 向 传播 过 程 即 可 。 下 面 给 出 了 修改 后 的 mnist_infernece.py 程序 。 





@ 关于 dropout 的 详情 可 以 参考 论文 Hinton G E, Srivastava N, Krizhevsky A，et al. Improving neural 
networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012. 
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运行 修改 后 的 mnist_train.py， 可 以 得 到 类 似 第 5 章 中 的 输出 : 
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类 似 地 修改 第 5 章 中 给 出 的 mnist_eval.py 程序 输入 部 分 ， 就 可 以 测试 这 个 卷 积 神经 网 
络 在 MNIST 数据 集 上 的 正确 率 了 。 在 MNIST 测试 数据 上 ， 上 面 给 出 的 卷 积 神经 网 络 可 以 
达到 大 约 99.4% 的 正确 率 。 相 比 第 5 章 中 最 高 的 98.4% 的 正确 率 ， 卷 积 神经 网 络 可 以 巨 幅 
提高 神经 网 络 在 MNIST 数据 集 上 的 正确 率 。 

然而 一 种 卷 积 神经 网 络 架构 不 能 解决 所 有 问题 。 比 如 LeNet-5 模型 就 无 法 很 好 地 处 理 
类 似 ImageNet 这 样 比较 大 的 图 像 数 据 集 。 那么 如 何 设计 卷 积 神经 网 络 的 架构 呢 ? 下 面 的 正 
则 表达 式 公 式 总 结 了 一 些 经 典 的 用 于 图 片 分 类 问题 的 卷 积 神经 网 络 架构 : 

输入 层 一 〈 卷 积 层 + 一 池 化 层 ? ) + 全 连接 层 + 

在 上 面 的 公式 中 ,“ 卷 积 层 +” 表 示 一 层 或 者 多 层 卷 积 层 ， 大 部 分 卷 积 神经 网 络 中 一 般 
最 多 连续 使 用 三 层 卷 积 层 。“ 池 化 层 ? ”表示 没有 或 者 一 层 池 化 层 。 池 化 层 虽 然 可 以 起 到 减 
少 参 数 防止 过 拟 合 问题 ， 但 是 在 部 分 论文 中 也 发 现 可 以 直接 通过 调整 卷 积 层 步 长 来 完成 ”。 
所 以 有 些 卷 积 神经 网 络 中 没有 池 化 层 。 在 多 轮 卷 积 层 和 池 化 层 之 后 ， 卷 神经 网 络 在 输出 之 
前 一 般 会 经 过 1~2 个 全 连接 层 。 比 如 LeNet-5 模型 就 可 以 表示 为 下 面 的 结构 。 

输入 层 一 卷 积 层 - 池 化 层 一 卷 积 层 一 池 化 层 一 全 连接 层 一 全 连接 层 一 输出 层 

除了 LeNet-5 模型 ，2012 年 ImageNet ILSVRC 图 像 分 类 挑战 的 第 一 名 AlexNet 模型 、 
2013 年 ILSVRC 第 一 名 ZF Net 模型 以 及 2014 年 2014 年 第 二 名 VGGNet 模型 的 架构 都 满 
足 上 面 介绍 的 正则 表达 式 。 表 6-1 给 出 了 VGGNet 论文 Very Deep Convolutional Networks for 
Large-Scale Image Recognition* 中 作者 尝试 过 的 不 同 卷 积 神经 网 络 架 构 。 从 表 6-1 中 可 以 看 
出 这 些 卷 积 神经 网 络 架构 都 满足 介绍 的 正则 表达 式 。 


@ 具体 可 以 参考 论文 Striving for Simplicity: The All Convolutional Net。 
@) Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J]. 
Computer Science, 2014. 
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表 6-1 VGGNet 模型 论文 中 尝试 过 的 卷 积 神经 网 络 架构 
(其 中 conv* 表 示 卷 积 层 ，maxpool 表示 池 化 层 ，FC-* 表 示 全 连接 层 ，soft-max 为 softmax 结构 ) 


conv3- conv3-512 | conv. 
12 conv3-512 | conv3-512 





有 了 卷 积 神经 网 络 的 架构 ， 那 么 每 一 层 卷 积 层 或 者 池 化 层 中 的 配置 需要 如 何 设置 呢 ? 
表 6-1 也 提供 了 很 多 线索 。 在 表 6-1 中 ，convX-Y 表示 过 滤器 的 边 长 为 X， 滩 度 为 Y。 比 如 
conv3-64 表示 过 滤器 的 长 和 宽 都 为 3， 深 度 为 64。 从 表 6-1 中 可 以 看 出 ，VGG Net 中 的 过 
滤器 边 长 一 般 为 3 或 者 1。 在 LeNet-5 模型 中 , 也 使 用 了 边 长 为 5 的 过 滤器 。 一 般 卷 积 层 的 
过 滤器 边 长 不 会 超过 5, 但 有 些 卷 积 神经 网 络 结构 中 ,处 理 输 入 的 卷 积 层 中 使 用 了 边 长 为 7 
甚至 是 11 的 过 滤器 。 

在 过 滤器 的 深度 上 ， 大 部 分 卷 积 神经 网 络 都 采用 逐 层 递增 的 方式 。 比 如 在 表 6-1 中 可 
以 看 到 ， 每 经 过 一 次 池 化 层 之 后 ， 卷 积 层 过 滤器 的 深度 会 乘 以 2。 虽 然 不 同 的 模型 会 选择 
使 用 不 同 的 具体 数字 ， 但 是 逐 层 递增 是 比较 普遍 的 模式 。 卷 积 层 的 步 长 一 般 为 1， 但 是 在 
有 些 模 型 中 也 会 使 用 2， 或 者 3 作为 步 长 。 池 化 层 的 配置 相对 简单 ， 用 的 最 多 的 是 最 大 池 
化 层 。 池 化 层 的 过 滤器 边 长 一 般 为 2 或 者 3， 步 长 也 一 般 为 2 或 者 3。 


6.4.2 ”Inception 一 v3 模型 


在 6.4.1 小 节 中 通过 介绍 LeNet-5 模型 整理 出 了 一 类 经 典 的 卷 积 神经 网 络 架构 设计 。 在 
这 一 小 节 中 将 介绍 Inception 结构 以 及 Inception-v3 卷 积 神经 网 络 模型 。Inception 结构 是 一 


Q@ 此 表 源 自 论 文 Very Deep Convolutional Networks for Large-Scale Image Recognition。 
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种 和 LeNet-5 结构 完全 不 同 的 卷 积 神经 网 络 结构 。 在 LeNet-5 模型 中 ， 不 同 卷 积 层 通 过 串 
联 的 方式 连接 在 一 起 ， 而 Inception-v3 模型 中 的 Inception 结构 是 将 不 同 的 卷 积 层 通过 并 联 
的 方式 结合 在 一 起 。 在 下 面 的 篇 幅 中 将 具体 介绍 Inception 结构 ， 并 通过 TensorFlow-Slim 
工具 来 实现 Inception-v3 模型 中 的 一 个 模块 。 

在 6.4.1 中 提 到 了 一 个 卷 积 层 可 以 使 用 边 长 为 1、3 或 者 5 的 过 滤器 ， 那 么 如 何在 这 些 
边 长 中 选 呢 ? Inception 模块 给 出 了 一 个 方案 ， 那 就 是 同时 使 用 所 有 不 同 尺 寸 的 过 滤器 ， 然 
后 再 将 得 到 的 矩阵 拼接 起 来 。 图 6-16 给 出 了 Inception 模块 的 一 个 单元 结构 示意 图 。 





输入 矩阵 inception 中 间 结 果 输出 矩阵 














6-16 ”Inception 模块 示意 图 。 


从 图 6-16 中 可 以 看 出 ，Inception 模块 会 首先 使 用 不 同 尺 寸 的 过 滤器 处 理 输入 拖 阵 。 在 
图 6-16 中 ， 最 上 方 矩阵 为 使 用 了 边 长 为 1 的 过 滤器 的 卷 积 层 前 向 传播 的 结果 。 类 似 的 ， 中 
间 和 矩阵 使 用 的 过 滤器 边 长 为 3, 下 方 矩阵 使 用 的 过 滤器 边 长 为 5 不 同 的 矩阵 代表 了 Inception 
模块 中 的 一 条 计算 路 径 。 虽 然 过 滤器 的 大 小 不 同 ， 但 如 果 所 有 的 过 滤器 都 使 用 全 0 填充 且 
步 长 为 1， 那 么 前 向 传播 得 到 的 结果 和 矩阵 的 长 和 宽 都 与 输入 矩阵 一 致 。 这 样 经 过 不 同 过 渡 
器 处 理 的 结果 矩阵 可 以 拼接 成 一 个 更 深 的 和 矩阵。 如 图 6-16 所 示 ， 可 以 将 它们 在 深度 这 个 维 
度 上 组 合 起 来 。 | 

图 6-16 所 示 的 Inception 模块 得 到 的 结果 和 矩阵 的 长 和 宽 与 输入 一 样 ,深度 为 红 黄 蓝 三 个 
和 矩阵 深度 的 和 。 图 6-16 中 展示 的 是 Inception 模块 的 核心 思想 ， 真 正在 Inception-v3 模型 中 
使 用 的 Inception 模块 要 更 加 复杂 且 多 样 ， 有 兴趣 的 读者 可 以 参考 论文 Rethinking the 
Inception Architecture for Computer Vision"。 图 6-17 给 出 了 Inception-v3 模型 的 架构 图 。 


GD Szegedy C, Vanhoucke V, loffe S, et al. Rethinking the Inception Architecture for Computer Vision[]]. 


Computer Science, 2015. 
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ju 


图 6-17 ”Inception-v3 模型 架构 图 


Inception-v3 模型 总 共有 46 层 ， 由 11 个 Inception 模块 组 成 。 图 6-17 中 方 框 标注 出 来 
的 结构 就 是 一 个 Inception 模块 。 在 Inception-v3 模型 中 有 96 个 卷 积 层 ， 如 果 将 6.4.1 小 节 
中 的 程序 直接 搬 过 来 ， 那 么 一 个 卷 积 层 就 需要 5 行 代码 ， 于 是 总 共 需 要 480 行 代码 来 实现 
所 有 的 卷 积 层 。 这 样 使 得 代码 的 可 读 性 非常 差 。 为 了 更 好 地 实现 类 似 Inception-v3 模型 这 样 
的 复杂 卷 积 神经 网 络 ， 在 下 面 将 先 介绍 TensorFlow-Slim 工具 来 更 加 简洁 地 实现 一 个 卷 积 
层 。 以 下 代码 对 比 了 直接 使 用 TensorFlow 实现 一 个 卷 积 层 和 使 用 TensorFlow-Slim 实现 同 
样 结构 的 神经 网 络 的 代码 量 。 





因为 完整 的 Inception-v3 模型 比较 长 ， 所 以 在 本 书 中 仅 提供 Inception-v3 模型 中 结构 相 
对 复杂 的 一 个 Inception 模 块 的 代码 实现 ”以 下 代码 实现 了 图 6-17 中 红色 方 框 中 的 Inception 
模块 。 


@ 在 TensorFlow 的 GitHub 代码 库 上 找到 完整 的 Inception-v3 模型 的 源码 。GitHub 的 地 址 为 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/slim/nets/inception_v3. 
pye 
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6.5 ” 卷 积 神经 网 络 迁 移 学 习 


在 本 节 中 将 介绍 迁移 学 习 的 概念 以 及 如 何 通 过 TensorFlow 来 实现 迁移 学 习 。 在 6.5.1 
小 节 中 将 讲解 迁移 学 习 的 动机 ， 并 介绍 如 何 将 一 个 数据 集 上 训练 好 的 卷 积 神经 网 络 模型 快 
速 转移 到 另外 一 个 数据 集 上 。 在 6.5.2 小 节 中 将 给 出 一 个 具体 的 TensorFlow 程序 将 ImageNet 
上 训练 好 的 Inception-v3 模型 转移 到 另外 一 个 图 像 分 类 数据 集 上 。 


6.5.1 迁移 学 习 介 绍 


在 6.4 节 中 介绍 了 1998 年 提出 的 LeNet-5 模型 和 2015 年 提出 的 Inception-v3 模型 。 对 
比 这 两 个 模型 可 以 发 现 ， 卷 积 神经 网 络 模型 的 层 数 和 复杂 度 都 发 生 了 巨大 的 变化 。 表 6-2 
给 出 了 从 2012 年 到 2015 年 ILSVRC (Large Scale Visual Recognition Challenge) 第 一 名 模 
型 的 层 数 以 及 前 五 个 答案 的 错误 率 。 


表 6-2 ”ILSVRC 第 一 名 模型 信息 列表 


模型 名 称 


I | 
CT 7 
om oe Il | 
ET 
从 表 6-2 可 以 看 到 ， 随 着 模型 层 数 及 复杂 度 的 增加 ， 模 型 在 ImageNet 上 的 错误 率 也 随 


之 降低 。 然 而 ， 训 练 复杂 的 卷 积 神经 网 络 需 要 非常 多 的 标注 数据 。 如 6.1 节 中 提 到 的 ， 








Q@ 在 这 里 层 数 只 计算 了 卷 积 层 和 全 连接 层 的 个 数 ， 没 有 参数 的 池 化 层 没 有 包括 在 内 。 
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ImageNet 图 像 分 类 数据 集中 有 120 万 标注 图 片 ,所 以 才能 将 152 层 的 ResNet 的 模型 训练 到 
大 约 96.5% 的 正确 率 。 在 真实 的 应 用 中 ， 很 难 收集 到 如 此 多 的 标注 数据 。 即 使 可 以 收集 到 ， 
也 需要 花费 大 量 人 力 物 力 。 而 且 即 使 有 海量 的 训练 数据 ， 要 训练 一 个 复杂 的 卷 积 神经 网 络 
也 需要 几 天 甚至 几 周 的 时 间 。 为 了 解决 标注 数据 和 训练 时 间 的 问题 ， 可 以 使 用 本 节 将 要 介 
绍 的 迁移 学 习 。 

所 谓 迁 移 学 习 ， 就 是 将 一 个 问题 上 训练 好 的 模型 通过 简单 的 调整 使 其 适用 于 一 个 新 的 
问题 。 本 小 节 将 介绍 如 何 利用 ImageNet 数据 集 上 训练 好 的 Inception-v3 模型 来 解决 一 个 新 
的 图 像 分 类 问题 。 根 据 论 文 DeC4F: 4 Deep Convolutional Activation Feature for Generic 
Visual Recognition" 中 的 结论 ， 可 以 保留 训练 好 的 Inception-v3 模型 中 所 有 卷 积 层 的 参数 ， 
只 是 替换 最 后 一 层 全 连接 层 。 在 最 后 这 一 层 全 连接 层 之 前 的 网 络 层 称 之 为 瓶颈 层 
(bottleneck )。 

将 新 的 图 像 通过 训练 好 的 卷 积 神经 网 络 直到 瓶颈 层 的 过 程 可 以 看 成 是 对 图 像 进行 特征 
提取 的 过 程 。 在 训练 好 的 Inception-v3 模型 中 , 因为 将 瓶颈 层 的 输出 再 通过 一 个 单 层 的 全 连 
接 层 神 经 网 络 可 以 很 好 地 区 分 1000 种 类 别 的 图 像 , 所 以 有 理由 认为 瓶颈 层 输 出 的 节点 向 量 
可 以 被 作为 任何 图 像 的 一 个 更 加 精简 且 表 达能 力 更 强 的 特征 向 量 。 于 是 ， 在 新 数据 集 上 ， 
可 以 直接 利用 这 个 训练 好 的 神经 网 络 对 图 像 进行 特征 提取 ， 然 后 再 将 提取 得 到 的 特征 向 量 
作为 输入 来 训练 一 个 新 的 单 层 全 连接 神经 网 络 处 理 新 的 分 类 问题 。 

一 般 来 说 ， 在 数据 量 足够 的 情况 下 ， 迁 移 学 习 的 效果 不 如 完全 重新 训练 。 但 是 迁移 学 
习 所 需要 的 训练 时 间 和 训练 样本 数 要 远 远 小 于 训练 完整 的 模型 。 在 没有 GPU 的 普通 台式 
机 或 者 笔记 本 电脑 上 ，6.5.2 小 节 中 给 出 的 TensorFlow 训练 过 程 只 需要 大 约 5 分 钟 ”， 而 且 
可 以 达到 大 概 90% 的 正确 率 。 


6.5.2 “TensorFlovw 实现 迁移 学 习 


本 小 节 将 给 出 一 个 完整 的 TensorFlow 程序 来 介绍 如 何 通过 TensorFlow 实现 迁移 学 习 。 
以 下 代码 给 出 了 如 何 下 载 这 一 小 节 中 将 要 用 到 的 数据 集 。 





GD Donahue J, Jia Y, Vinyals O, et al. DeCAF: 4 Deep Convolutional Activation Feature for Generic Visual 
Recognition [J]. Computer Science, 2013. 

@ 第 10 章 将 介绍 TensorFlow 如 何 使 用 GPU 加 速 训练 过 程 。 

@ 数据 下 载 和 数据 预 处 理 的 时 间 没 有 计算 在 内 。 
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解压 之 后 的 文件 夹 包含 了 5 个 子 文件 夹 ， 每 一 个 子 文件 夹 的 名 称 为 一 种 花 的 名 称 ， 代 
表 了 不 同 的 类 别 。 平均 每 一 种 花 有 734 张 图 片 ,每 一 张 图 片 都 是 RGB 色彩 模式 的 ， 大 小 也 
不 相同 。 和 之 前 的 样 例 不同 , 在 这 一 小 节 中 给 出 的 程序 将 直接 处 理 没有 整理 过 的 图 像 数据 。 
同时 ， 通 过 下 面 的 命名 可 以 下 载 谷歌 提供 的 训练 好 的 Inception-v3 模型 。 


当 新 的 数据 集 和 已 经 训练 好 的 模型 都 准备 好 之 后 ， 可 以 通过 以 下 代码 来 完成 迁移 学 习 
的 过 程 。 
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运行 上 面 的 程序 将 需要 大 约 40 分 钟 (数据 处 理 35 分 钟 ， 训 练 5 分钟 )， 可 以 得 到 类 似 
下 面 的 结果 : 
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从 上 面 的 结果 可 以 看 到 , 模型 在 新 的 数据 集 上 很 快 能 够 收敛 , 并 达到 还 不 错 的 分 类 效果 。 
小 结 


在 本 章 中 详细 介绍 了 如 何 通过 卷 积 神经 网 络 解决 图 像 识别 问题 。 首 先 ， 在 6.1 节 中 讲 
解 了 什么 是 图 像 识 别 问 题 ， 并 介绍 了 图 像 识 别 问题 中 的 一 些 经 典 公开 数据 集 。 在 这 一 节 中 
介绍 了 不 同 算法 在 这 些 公开 数据 集 上 的 表现 ， 并 指出 卷 积 神经 网 络 给 这 个 领域 带 来 了 质 的 
飞越 。 接 着 ， 在 6.2 节 中 介绍 了 卷 积 神经 网 络 的 基本 思想 。 在 这 一 节 中 指出 了 全 连接 神经 
网 络 在 处 理 图 像 数 据 上 的 不 足 之 处 , 并 给 出 了 经 典 的 卷 积 神经 网 络 中 包含 的 不 同 网 络 结构 。 

在 6.3 节 中 详细 讲述 了 卷 积 神经 网 络 中 比较 重要 的 两 个 网 络 结构 一 一 卷 积 层 和 池 化 层 。 
本 节 详 细 介 绍 了 这 两 种 网 络 结构 的 前 向 传播 算法 ， 并 给 出 了 TensorFlow 中 的 代码 实现 。 在 
6.4 节 中 , 通过 两 种 经 典 的 卷 积 神经 网 络 模型 介绍 了 如 何 设 计 一 个 卷 积 神经 网 络 的 架构 ， 并 
介绍 了 配置 卷 积 层 和 池 化 层 中 设置 的 一 些 经 验 。 在 这 一 节 中 给 出 了 一 个 完成 的 TensorFlow 
程序 来 实现 LeNet-5 模型 , 通过 这 个 模型 可 以 将 MNIST 数据 集 上 的 正确 率 进 一 步 提 升 到 大 
约 99.4%。 这 一 节 中 还 简单 介绍 了 TensorFlow-Slim 工具 ， 通 过 这 个 工具 可 以 巨 幅 提高 实现 
复杂 神经 网 络 的 编程 效率 。 最 后 在 6.5 节 中 ， 介 绍 了 迁移 学 习 的 概念 并 给 出 了 一 个 完整 的 
TensorFlow 来 实现 迁移 学 习 。 通 过 迁移 学 习 ， 可 以 使 用 少量 训练 数据 在 短 时 间 内 训练 出 效 
果 还 不 错 的 神经 网 络 模型 。 

在 这 一 章 中 , 通过 图 像 识 别 问题 介绍 了 卷 积 神经 网 络 。 通 过 这 种 特殊 结构 的 神经 网 络 ， 
可 以 将 图 像 识别 问题 的 准确 率 提 高 到 一 个 新 的 层次 。 除 了 改进 模型 ，TensorFlow 还 提供 了 
很 多 图 像 处 理 的 函数 以 方便 图 像 处理 。 在 第 7 章 中 将 具体 介绍 这 些 函数 。 同 时 也 将 介绍 如 
何 使 用 TensorFlow 更 好 地 处 理 输入 数据 。 
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在 第 6 章 中 详细 介绍 了 卷 积 神经 网 络 ， 并 提 到 通过 卷 积 神经 网 络 给 图 像 识别 技术 带 来 
了 突破 性 进展 。 这 一 章 将 从 另外 一 个 维度 来 进一步 提升 图 像 识别 的 精度 以 及 训练 的 速度 。 
喜欢 摄影 的 读者 都 知道 图 像 的 亮度 、 对 比 度 等 属性 对 图 像 的 影响 是 非常 大 的 ， 相 同 物体 在 
不 同 亮度 、 对 比 度 下 差别 非常 大 。 然 而 在 很 多 图 像 识别 问题 中 ， 这 些 因素 都 不 应 该 影响 最 
后 的 识别 结果 。 所 以 本 章 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 使 训练 得 到 的 神经 网 络 模型 尽 
可 能 小 地 被 无 关 因素 所 影响 。 但 与 此 同时 ， 复 杂 的 预 处 理 过 程 可 能 导致 训练 效率 的 下 降 。 
为 了 减 小 预 处 理 对 于 训练 速度 的 影响 ,在 本 章 中 也 将 详细 地 介绍 TensorFlow 中 多 线程 处 理 
输入 数据 的 解决 方案 。 

本 章 将 根据 数据 预 处 理 的 先后 顺序 来 组 织 不 同 的 小 节 。 首 先 在 7.1 节 中 将 介绍 如 何 统 
一 输入 数据 的 格式 ， 使 得 在 之 后 系统 中 可 以 更 加 方便 地 处 理 。 来 自 实际 问题 的 数据 往往 有 
很 多 格式 和 属性 , 这 一 节 将 介绍 的 TFRecord 格式 可 以 统一 不 同 的 原始 数据 格式 ， 并 更 加 有 
效 地 管理 不 同 的 属性 。 接 着 在 7.2 节 中 将 介绍 如 何 对 图 像 数 据 进 行 预 处 理 。 这 一 节 将 列举 
TensorFlow 支持 的 图 像 处 理 函数 ， 并 介绍 如 何 使 用 这 些 处 理 方式 来 弱化 与 图 像 识别 无 关 的 
因素 。 复 杂 的 图 像 处 理 函数 有 可 能 降低 训练 的 速度 ， 为 了 加 速 数据 预 处 理 过 程 ，7.3 节 将 完 
整地 介绍 TensorFlow 多 线程 数据 预 处 理 流程 。 在 这 一 节 中 将 首先 介绍 TensorFLow 中 多 线 
程 和 队列 的 概念 ， 这 是 TensorFlow 多 线程 数据 预 处 理 的 基本 组 成 部 分 。 然 后 将 具体 介绍 数 
据 预 处 理 流程 中 的 每 个 部 分 。 在 本 节 的 最 后 将 给 出 一 个 完整 的 多 线程 数据 预 处 理 流程 图 和 
程序 框架 。 


7.1 TFRecord 输入 数据 格式 


TensorFlow 提供 了 一 种 统一 的 格式 来 存储 数据 ， 这 个 格式 就 是 TFRecord。6.5 节 给 出 
了 一 个 程序 来 处 理 花 打分 类 的 数据 。 在 这 个 程序 中 ， 使 用 了 一 个 从 类 别名 称 到 所 有 数据 列 
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表 的 词典 来 维护 图 像 和 类 别 的 关系 。 这 种 方式 的 可 扩展 性 非常 差 ， 当 数据 来 源 更 加 复杂 、 
每 一 个 样 例 中 的 信息 更 加 丰富 之 后 ， 这 种 方式 就 很 难 有 效 地 记录 输入 数据 中 的 信息 了 。 于 
是 TensorFlow 提供 了 TFRecord 的 格式 来 统一 存储 数据 。 这 一 节 将 介绍 如 何 使 用 TFRecord 
来 统一 输入 数据 的 格式 。 


7.1.1 TFRecord 格式 介绍 


TFRecord 文件 中 的 数据 都 是 通过 tftrain.Example Protocol Buffer 的 格式 存储 的 。 以 下 
代码 给 出 了 tftrain.Example 的 定义 。 






从 以 上 代码 可 以 看 出 葵 train.Example 的 数据 结构 是 比较 简洁 的 。tftrain.Example 中 包 
含 了 一 个 从 属性 名 称 到 取 值 的 字典 。 其 中 属性 名 称 为 一 个 字符 串 ， 属 性 的 取 值 可 以 为 字符 
串 (BytesList)， 实 数列 表 〈FloatList) 或 者 整数 列表 (Int64List)。 比 如 将 一 张 解码 前 的 图 
像 存 为 一 个 字符 串 ， 图 像 所 对 应 的 类 别 编号 存 为 整数 列表 。 在 7.1.2 小 节 中 将 给 出 一 个 使 用 
TFRecord 的 具体 样 例 。 


7.1.2”TFRecord 样 例 程序 


本 小 节 将 给 出 具体 的 样 例 程序 来 读 写 TFRecord 文件 下面 的 程序 给 出 了 如 何 将 MNIST 
输入 数据 转化 为 TFRecord 的 格式 。 
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以 上 程序 可 以 将 MNIST 数据 集中 所 有 的 训练 数据 存储 到 一 个 TFRecord 文件 中 。 当 数 
据 量 较 大 时 , 也 可 以 将 数据 写 入 多 个 TFRecord 文件 。TensorFlow 对 从 文件 列表 中 读 取 数 据 
提供 了 很 好 的 支持 ， 在 7.3.2 小 节 中 将 详细 介绍 。 以 下 程序 给 出 了 如 何 读 取 TFRecord 文件 


中 的 数据 。 
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7.2 图 像 数 据 处 理 


在 之 前 的 几 章 中 多 次 使 用 到 了 图 像 识 别 数据 集 。 然 而 在 之 前 的 章节 中 都 是 直接 使 用 图 
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像 原 始 的 像素 矩阵 。 这 一 节 将 介绍 图 像 的 预 处 理 过 程 。 通 过 对 图 像 的 预 处 理 ， 可 以 尽量 避 
免 模型 受到 无 关 因 素 的 影响 。 在 大 部 分 图 像 识别 问题 中 ， 通 过 图 像 预 处 理 过 程 可 以 提高 模 
型 的 准确 率 。 在 7.2.1 小 节 中 将 先 介绍 TensorFlow 提供 的 主要 图 像 处 理 函数 ， 并 给 出 具体 
图 像 在 处 理 前 和 处 理 后 的 变化 让 读者 有 一 个 直观 的 了 解 。 然 后 在 7.2.2 小 节 中 将 给 出 一 个 完 
整 的 图 像 预 处 理 流程 。 


7.2.1 ”TensorFlow 图 像 处 理 晒 数 


TensorFlow 提供 了 几 类 图 像 处 理 函数 ， 在 本 小 节 中 将 一 一 介绍 这 些 图 像 处 理 函数 。 

图 像 编码 处 理 

在 之 前 的 章节 中 提 到 一 张 RGB 色彩 模式 的 图 像 可 以 看 成 一 个 三 维和 矩阵 , 矩阵 中 的 每 一 
个 数 表 示 了 图 像 上 不 同位 置 ， 不 同 颜色 的 亮度 。 然 而 图 像 在 存储 时 并 不 是 直接 记录 这 些 矩 
阵 中 的 数字 ,而 是 记录 经 过 压缩 编码 之 后 的 结果 。 所 以 要 将 一 张 图 像 还 原 成 一 个 三 维 矩 阵 ， 
需要 解码 的 过 程 。TensorFlow 提供 了 对 jpeg 和 png 格式 图 像 的 编码 /解码 函数 。 以 下 代码 示 
范 了 如 何 使 用 TensorFlow 中 对 jpeg 格式 图 像 的 编码 /解码 函数 。 





@ 关于 pyplot 更 加 详细 的 介绍 可 以 参考 http://matplotlib.org/index.html 
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ri 








图 7-1 显示 了 上 面 代码 可 视 化 出 来 的 一 张 图 像 ， 在 下 面 的 篇 幅 中 将 继续 使 用 这 张 图 像 
来 介绍 TensorFlow 其 他 图 像 处 理 的 函数 。 


图 7-1 本 节 样 例 代码 中 使 用 到 的 原始 图 像 
图 像 大 小 调整 
一 般 来 说 ， 网 络 上 获取 的 图 像 大 小 是 不 固定 ， 但 神经 网 络 输入 节点 的 个 数 是 固定 的 。 


@ 原始 图 像 是 彩色 的 ， 在 GitHub 代码 库 里 有 原始 图 像 。 
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所 以 在 将 图 像 的 像素 作为 输入 提供 给 神经 网 络 之 前 ， 需 要 先 将 图 像 的 大 小 统一 。 这 就 是 图 
像 大 小 调整 需要 完成 的 任务 。 图 像 大 小 调整 有 两 种 方式 ， 第 一 种 是 通过 算法 使 得 新 的 图 像 
尽量 保存 原始 图 像 上 的 所 有 信息 。TensorFlow 提供 了 四 种 不 同 的 方法 ， 并 且 将 它们 封装 到 
了 timage.resize_ images 函数 。 以 下 代码 示范 了 如 何 使 用 这 个 函数 。 

# 假设 img_ aata 是 









# 通过 tf.image.resize images 函数 调整 图 像 的 大 小 。 这 个 函数 第 一 个 参数 为 原始 图 像 ， 
# 第 二 个 和 第 三 个 参数 为 调整 后 图 像 的 大 小 ，method 参数 给 出 了 调整 图 像 大 小 的 算法 。 
resized = tf.image.resize images(imng data, 300, 300, method=0) 
# 输出 调整 后 图 像 的 大 小 ， 此 处 的 结果 为 (300，300，?) 。 表示 图 像 的 大 小 是 300x300， 

# 但 图 像 的 深度 在 没有 明确 设置 之 前 会 是 问号 。 下 
Print img data.get shape() 


# 通过 pyplot 可 视 化 的 过 程 和 图 像 编码 处 理 中 给 出 的 代码 一 致 ， 在 以 下 代码 中 也 将 略 去 。 
表 7-1 给 出 了 给 image.resize_ images 函数 的 method 参数 取 值 对 应 的 图 像 大 小 调整 算法 。 
图 7-2 对 比 了 不 同 大 小 调整 算法 得 到 的 结果 。 
表 7-1 tfimage.resize_images 函数 中 method 参数 取 值 与 相对 应 的 图 像 大 小 调整 算法 


a ; 
EC 双 线 性 插值 法 (Bilinear interpolation)” 
[i 最 近邻 居 法 (Nearest neighbor interpolation)“ 














原始 图 像 (a) 双 线 性 插值 法 (b) 最 近邻 居 〈c) 
Q@ 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bilinear_interpolation。 

@ 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Nearest-neighbor_interpolation。 

@ 更 详细 的 介绍 可 以 参考 https:Wen.wikipedia.org/wiki/Bicubic_interpolation。 
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双 三 次 插值 法 (d) 面积 插值 法 (e) 


图 7-2 ”使 用 萎 image.resize_images 函数 中 不 同 图 像 大 小 调整 算法 的 效果 对 比 图 


从 图 7-2 中 可 以 看 出 ， 不 同 算法 调整 出 来 的 结果 会 有 细微 差别 ， 但 不 会 相差 太 远 。 除 
了 将 整 张 图 像 信息 完整 保存 ，TensorFlow 还 提供 了 API 对 图 像 进 行 裁 前 或 者 填充 。 以 下 代 
后 用 二 了 着 tf.image.resize image with crop ， por_pad 函数 来 调整 图 像 大 小 的 功能 。 






辐 像 大 小 为 1797x2673， 
Weed = tf.image.resize image : a _ Crop oe | 1000, oy 
padded = tf.image.resize image with crop or pad(img data, 3000, 3000) 





原始 图 像 (a) 自动 裁 竟 到 1000X1000 (b) 自动 填充 到 3000X3000 (c) 
7-3 ”使 用 给 image.resize image_with_crop_or pad 函数 调整 图 像 大 小 结果 对 比 图 


TensorFlow 还 支持 通过 edhe seal ei bn a 个 样 例 。 





上 面 介 绍 的 图 像 截 贡 函 数 都 是 截取 或 者 填充 图 像 中 间 的 部 分 。TensorFlow 也 提供 了 
tfimage.crop_to_bounding box 函数 和 timage.pad_to_bounding_box 函数 来 剪裁 或 者 填充 给 
定 区 域 的 图 像 。 这 两 个 函数 都 要 求 给 出 的 尺寸 满足 一 定 的 要 求 ， 和 否则 程序 会 报错 。 比 如 在 
使 用 给 image.crop_to_bounding_box 函数 时 ，TensorFlow 要 求 提供 的 图 像 尺寸 要 大 于 目标 尺 
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寸 ， 也 就 是 要 求 原始 图 像 能 够 裁剪 出 目标 图 像 的 大 小 。 这 里 就 不 再 给 出 每 个 函数 的 具体 样 
例 ， 有 兴趣 的 读者 可 以 自行 参考 TensorFlow 的 API 文档 。 





原始 图 像 (3) 截取 中 间 50% 的 图 像 (b) 
图 7-4 ”使 用 廿 image. central_crop 函数 调整 图 像 大 小 结果 对 比 图 


图 像 翻转 
TensorFlow 提供 了 一 些 函数 来 支持 对 图 像 的 翻转 。 以 下 代码 实现 了 将 图 像 上 下 翻转 、 
左右 翻转 以 及 沿 对 角 线 翻转 的 功能 。 
# 将 图 像 上 下 翻转 ， 翻 转 后 的 效果 见 图 7-5(b)。 
flipped = tf.image.flip up down (img data) 
# 将 图 像 左右 翻转 ， 翻 转 后 的 效果 见 图 7-5(c) 。 
flipped = tf.image.flip left right (img data) 


# 将 图 像 沿 对 角 线 翻转 ， 翻 转 后 的 效果 见 图 7-5 (d) 。 
transposed = tf.image.transpose image (img data) 





左右 翻转 (0) 沿 对 角 线 翻转 〈d) 
图 7-5 图 像 翻转 效果 图 
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在 很 多 图 像 识别 问题 中 ， 图 像 的 翻转 不 会 影响 识别 的 结果 。 于 是 在 训练 图 像 识 别 的 神 

经 网 络 模 型 时 , 可 以 随机 地 翻转 训练 图 像 ， 这 样 训练 得 到 的 模型 可 以 识别 不 同 角度 的 实体 。 
比如 假设 在 训练 数据 中 所 有 的 猎头 都 是 向 右 的 ， 那 么 训练 出 来 的 模型 就 无 法 很 好 的 识别 猫 
头 向 左 的 猫 。 虽 然 这 个 问题 可 以 通过 收集 更 多 的 训练 数据 来 解决 ， 但 是 通过 随机 翻转 训练 
图 像 的 方式 可 以 在 零 成 本 的 情况 下 很 大 程度 地 缓解 该 问题 。 所 以 随机 翻转 训练 图 像 是 一 种 
很 常用 的 图 像 预 处 理 方式 。TensorFlow 提供 了 方便 的 API 完成 随机 图 像 翻 转 的 过 程 。 

# 以 一 定 概率 上 下 翻转 图 像 。 

flipped = tf.image.random flip up Gaown (img data) 

# 以 一 定 概率 左右 翻转 图 像 。 

fiipped = tf.image.random flip left right (img data) 


图 像 色 彩 调整 
和 图 像 翻转 类 似 ， 调 整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 在 很 多 图 像 识 别 应 用 中 都 
不 会 影响 识别 结果 。 所 以 在 训练 神经 网 络 模型 时 ， 可 以 随机 调整 训练 图 像 的 这 些 属性 ， 从 
而 使 得 训练 得 到 的 模型 尽 可 能 小 地 受到 无 关 因素 的 影响 。TensorFlow 提供 了 调整 这 些 色彩 
相关 属性 的 API。 以 下 代码 显示 了 如 何 修 改 图 像 的 亮度 。 
# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效 果 如 图 7-6 (b) 所 示 。 
adjusted = tf.image.adjust brightness (img data, -0.5) 
# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效果 如 图 7-6 (c) 所 示 。 
adjusted = tf.image.adjust brightness (img data, 0.5) 


# 在 [-max_delta，max_delta) 的 范围 随机 调整 图 像 的 亮度 。 
adjusted = tf.image.random brightness (image, max delta) 











亮度 -0.5 Cb) 
图 7-6 图 像 亮度 调整 效果 图 ” 
以 下 代码 显示 了 如 何 调整 图 像 的 对 比 度 。 
# 将 图 像 的 对 比 度 -5， 得 到 的 图 像 效 果 如 图 7-7 (b) 所 示 。 
adjusted = tf.image.adijust contrast (img data, =5) 
# 将 图 像 的 对 比 度 +5， 得 到 的 图 像 效 果 如 图 7-7 (c) 所 示 。 
adijusted = tf.image.adjust contrast (img data, 5) 


原始 图 像 (a) 


@ 在 黑白 图 片上 色相 的 调整 不 是 特别 明显 ， 在 彩色 图 片上 的 效果 会 比较 明显 。 
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# 在 [lower，upper] 的 范围 随机 调整 图 的 对 比 度 。 


adjusted = tf.image.random contrast (image, lower, upper) 








we 00 


对 比 度 -5 (b) 对 比 度 +5 (c) 


1300 C00 Oo 


Bw 3 


原始 图 像 (a) 


3060 


图 7-7 图 像 对 比 度 调整 效果 图 


以 下 代码 显示 了 如 何 调整 图 像 的 色相 。 


# 下 面 四 条 命令 分 别 将 色相 加 0.1、0.3、0.6 和 0.9, 得 到 的 效果 分 别 在 
# 图 7-8(b),(c)， (a),(e) 中 展示 。 

adjusted = tf.image.adjust hue{(img data, 0.1) 

adjusted = tf.image.adjust hue(img data, 0.3) 

adjusted = tf.image.adjust hue(img data, 0.6) 

adjusted = tf.image.adjust hue(img data, 0.9) 

# 在 [-max_delta，max _delta] 的 范围 随机 调整 图 像 的 色相 。 

# max_delta 的 取 值 在 [0，0.5] 之 间 。 

adjusted = tf.image.random hue (image, max delta) 






色相 +0.3 (c) 


色相 +0.6(d) 色相 +0.9(e) 
图 7-8 图像 色 相 调 整 效 果 图 
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以 下 代码 显示 了 如 何 调整 图 像 的 饱和 度 。 
# 将 图 像 的 饱和 度 -5， 得 到 的 图 像 效 果 如 图 7-9 (b) 所 示 。 
adjusted = tf:image.adjust saturation(img data, -5) 
# 将 图 像 的 饱和 度 +5， 得 到 的 图 像 效 果 如 图 7-9 (c) 所 示 。 
adjusted = tf.image.adjust saturation (img data, 5) 
# 在 [lower，upper] 的 范围 随机 调整 图 的 饱和 度 。 
adjusted = tf.image.random 'saturation(image, lower, upper) 













侈 和 度 -5 (b) 
图 7.9 “图像 人 和 度 调整 效果 图 


原始 图 像 (a) 


) 


饱和 度 +5 (ce 


除了 调整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 ，TensorFlow 还 提供 API 来 完成 图 像 标 
准 化 的 过 程 。 这 个 操作 就 是 将 图 像 上 的 亮度 均值 变 为 0， 方差 变 为 1。 以 下 代码 实现 了 这 个 
功能 。 

# 将 代表 一 张 图 像 的 三 维和 矩阵 中 的 数字 均值 变 为 0, 方差 变 为 1。 调整 后 的 图 像 如 图 7-10 (b) 。 


adjusteq = tf.image.-per image whitening(img data) 


原始 图 像 (a) 调整 后 图 像 〈b) 


图 7-10 图 像 标 准 化 效果 图 
处 理 标 注 框 
在 很 多 图 像 识 别 的 数据 集中 ， 图 像 中 需要 关注 的 物体 通常 会 被 标注 框 圈 出 来 。 
TensorFlow 提供 了 一 些 工具 来 处 理 标注 框 。 下 面 这 段 代 码 展 示 了 如 何 通过 
tfimage.draw_bounding_ boxes 函数 在 图 像 中 加 入 标注 框 。 
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0 


7-11 在 图 像 中 加 入 标注 框 ( 图 中 大 的 标注 框 标明 了 猫 脸 的 位 置 , 小 的 标注 框 标明 了 猫 的 一 只 眼睛 的 位 置 ) 


和 随机 翻转 图 像 、 随 机 调整 颜色 类 似 ， 随 机 截取 图 像 上 有 信息 含量 的 部 分 也 是 一 个 提 
高 模型 健壮 性 (robustness) 的 一 种 方式 。 这 样 可 以 使 训练 得 到 的 模型 不 受 被 识别 物体 大 小 
的 影响 。 下 面 的 程序 中 展示 了 如 何 通 过 给 image.sample_distorted_bounding_box 函数 来 完成 
随机 截取 图 像 的 过 程 。 
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图 7-12 在 图 像 中 随机 加 入 的 标注 框 ( 左 ) eh ( 右 》 
7.2.2 ”图 像 预 处 理 完整 样 例 


在 7.2.1 小 节 中 详细 讲解 了 TensorFlow 提供 的 主要 的 图 像 处 理 函 数 。 在 解决 真实 的 图 
像 识 别 问 题 时 ， 一 般 会 同时 使 用 多 种 处 理 方 法 。 这 一 个 小 节 将 给 出 一 个 完整 的 样 例 程 序 展 
示 如 何 将 不 同 的 图 像 处 理 函 数 结合 成 一 个 完成 的 图 像 预 处 理 流程 。 以 下 TensorFlow 程序 完 
成 了 从 图 像 片段 截取 ， 到 图 像 大 小 调整 再 到 图 像 翻转 及 色彩 调整 的 整个 图 像 预 处 理 过 程 。 
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100 150 20 X20 0 Ey 150 200 0 名 


图 7-13 运行 6 次 图 像 预 处 理 得 出 的 6 张 不 同 的 图 像 


运行 上 面 这 上段 程序 ， 可 以 得 到 类 似 图 7-13 中 所 示 的 图 像 。 这 样 就 可 以 通过 一 张 训练 图 
像 衍生 出 很 多 训练 样本 。 通 过 将 训练 图 像 进行 预 处 理 ， 训 练 得 到 的 神经 网 络 模型 可 以 识别 
不 同 大 小 、 方 位 、 色 彩 等 方面 的 实体 。 


7.3 多 线程 输入 数据 处 理 框 染 


在 7.2 节 中 介绍 了 使 用 TensorFlow 对 图 像 数 据 进 行 预 处 理 的 方法 。 虽 然 使 用 这 些 图 像 
数据 预 处 理 的 方法 可 以 减 小 无 关 因 素 对 图 像 识别 模型 效果 的 影响 ， 但 这 些 复杂 的 预 处 理 过 
程 也 会 减 慢 整个 训练 过 程 ”。 为 了 避免 图 像 预 处 理 成 为 神经 网 络 模型 训练 效率 的 瓶颈 ， 
TensorFlow 提供 了 一 套 多 线程 处 理 输入 数据 的 框架 。 在 本 节 中 将 详细 介绍 这 个 框架 .图 7-14 
总 结 了 一 个 经 典 的 输入 数据 处 理 的 流程 ， 在 以 下 的 各 个 小 节 中 ， 将 依次 介绍 这 个 流程 的 不 
同 部 分 。 


@ 本 章 中 主要 以 图 像 识 别 应 用 为 背景 介绍 数据 预 处 理 流程 ， 但 读者 可 以 很 容易 将 这 个 框架 应 用 到 其 他 类 
型 的 数据 上 。 
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图 7-14 经 典 输入 数据 处 理 流程 图 


7.3.1 小 节 将 首先 介绍 TensorFlow 中 队列 的 概念 。 在 TensorFlow 中 ， 队 列 不 仅 是 一 种 
数据 结构 , 它 更 提供 了 多 线程 机 制 。 队列 也 是 TensorFlow 多 线程 输入 数据 处 理 框架 的 基础 。 
然后 在 7.3.2 小 节 中 将 介绍 如 何在 TensorFlow 中 实现 图 7-14 中 的 前 三 步 。TensorFlow 提供 
了 tftrain.string input producer 函数 来 有 效 管理 原始 输入 文件 列表 。 在 7.3.2 小 节 中 将 重点 
介绍 如 何 使 用 这 个 函数 。 图 7-14 中 数据 预 处 理 的 部 分 已 经 在 7.2 节 中 有 过 详细 介绍 ， 本 节 
不 再 重复 。 接 着 在 7.3.3 小 节 中 将 介绍 图 7-14 中 的 最 后 一 个 流程 。 这 个 流程 将 处 理 好 的 单 
个 训练 数据 整理 成 训练 数据 batch, 这 些 batch 就 可 以 作为 神经 网 络 的 输入 。7.3.3 小 节 将 介 
绍 tftrain.shuffle batch join 和 tftrain.shuffle batch 函数 ， 并 比较 不 同 函数 的 多 线程 并 行 方 
式 。 最 后 在 7.3.4 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程序 来 展示 整个 输入 数据 处 理 框架 。 


7.3.1 队列 与 多 线程 


在 TensorFlow 中 ， 队 列 和 变量 类 似 ， 都 是 计算 图 上 有 状态 的 节点 。 其 他 的 计算 节点 可 
以 修改 它们 的 状态 。 对 于 变量 ， 可 以 通过 赋值 操作 修改 变量 的 取 值 ">。 对 于 队列 ， 修 改 队列 
状态 的 操作 主要 有 Enqueue、EnqueueMany 和 Dequeue。 以 下 程序 展示 了 如 何 使 用 这 些 函 数 
来 操作 一 个 队列 。 







和 


@ 第 4 章 中 详细 介绍 了 TensorFlow 中 的 变量 。 
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> 


TensorFlow 中 提供 了 FIFOQueue 和 RandomShuffleQueue 两 种 队列 。 在 上 面 的 程序 中 ， 
已 经 展示 了 如 何 使 用 FIFOQueue， 它 的 实现 的 是 一 个 先进 先 出 队列 。RandomShuffleQueue 
会 将 队列 中 的 元 素 打 乱 , 每 次 出 队列 操作 得 到 的 是 从 当前 队列 所 有 元 素 中 随机 选择 的 一 个 。 
在 训练 神经 网 络 时 希望 每 次 使 用 的 训练 数据 尽量 随机 ，RandomShuffleQueue 就 提供 了 这 样 
的 功能 。 

在 TensorFlow 中 ， 队 列 不 仅仅 是 一 种 数据 结构 ， 还 是 异步 计算 张 量 取 值 的 一 个 重要 机 
制 。 比 如 多 个 线程 可 以 同时 向 一 个 队列 中 写 元 素 ， 或 者 同时 读 取 一 个 队列 中 的 元 素 。 在 后 
面 的 小 节 中 将 具体 介绍 TensorFlow 是 如 何 利 用 队列 来 实现 多 线程 输入 数据 处 理 的 。 在 本 小 
节 之 后 的 内 容 中 将 先 介绍 TensorFlow 提供 的 辅助 函数 来 更 好 地 协同 不 同 的 线程 。 

TensorFlow 提供 了 tf Coordinator 和 tfQueueRunner 两 个 类 来 完成 多 线程 协同 的 功能 。 
让 Coordinator 主要 用 于 协同 多 个 线程 一 起 停止 ， 并 提供 了 should_stop、request_stop 和 join 
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三 个 函数 。 在 启动 线程 之 前 ， 需 要 先 声 明 一 个 给 Coordinator 类 ， 并 将 这 个 类 传 入 每 一 个 创 
建 的 线程 中 。 启动 的 线程 需要 一 直 查 询 给 Coordinator 类 中 提供 的 should_stop 函数 ， 当 这 个 
函数 的 返回 值 为 True 时 ， 则 当前 线程 也 需要 退出 。 每 一 个 启动 的 线程 都 可 以 通过 调用 
request_stop 函数 来 通知 其 他 线程 退出 。 当 某 一 个 线程 调用 request_ stop 函数 之 后 ， 
should stop 函数 的 返回 值 将 被 设置 为 True， 这 样 其 他 的 线程 就 可 以 同时 终止 了 。 以 下 程序 
展示 了 如 何 使 用 tfCoordinator。 






运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 : 


过 了 
OE es 
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当 所 有 线程 启动 之 后 ， 每 个 线程 会 打印 各 自 的 ID， 于 是 前 面 4 行 打印 出 了 它们 的 ID。 
然后 在 暂停 1 秒 之 后 ， 所 有 线程 又 开始 第 二 遍 打 印 ID。 在 这 个 时 候 有 一 个 线程 退出 的 条 件 
达到 , 于 是 调用 了 coord.request_stop 函数 来 停止 所 有 其 他 的 线程 。 然 而 在 打印 Stoping from 
id: 4 之 后 ， 可 以 看 到 有 线程 仍然 在 输出 。 这 是 因为 这 些 线程 已 经 执行 完 coord.should_stop 
的 判断 ， 于 是 仍然 会 继续 输出 自己 的 也 。 但 在 下 一 轮 判断 是 否 需 要 停止 时 将 退出 线程 。 于 
是 在 打印 一 次 ID 之 后 就 不 会 再 有 输出 了 。 

不 QueueRunner 主要 用 于 启动 多 个 线程 来 操作 同一 个 队列 ， 启 动 的 这 些 线程 可 以 通过 
上 面 介 绍 的 给 Coordinator 类 来 统一 管理 。 以 下 代码 展示 了 如 何 使 用 女 QueueRunner 和 
给 Coordinator 来 管理 多 线程 队列 操作 。 





@ 第 3 章 介绍 了 TensorFlow 计算 图 中 集合 的 概念 。 
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7.3.2 ”输入 文件 队列 


本 小 节 将 介绍 如 何 使 用 TensorFlow 中 的 队列 管理 输入 文件 列表 。 在 这 一 小 节 中 ， 假 设 
所 有 的 输入 数据 都 已 经 整理 成 了 TFRecord 格式 "。 虽 然 一 个 TFRecord 文件 中 可 以 存储 多 个 
训练 样 例 , 但 是 当 训练 数据 量 较 大 时 , 可 以 将 数据 分 成 多 个 TFRecord 文件 来 提高 处 理 效率 。 
TensorFlow 提供 了 tftrain.match filenames_once 函数 来 获取 符合 一 个 正则 表达 式 的 所 有 文 
件 ， 得 到 的 文件 列表 可 以 通过 tftrain.string input producer 函数 进行 有 效 的 管理 。 

tftrain.string input producer 函数 会 使 用 初始 化 时 提供 的 文件 列表 创建 一 个 输入 队列 ， 
输入 队列 中 原始 的 元 素 为 文件 列表 中 的 所 有 文件 。 如 7.1 节 中 的 样 例 代码 所 示 ， 创 建 好 的 
输入 队列 可 以 作为 文件 读 取 函 数 的 参数 。 每 次 调用 文件 读 取 函 数 时， 该 函数 会 先 判断 当前 
是 否 已 有 打开 的 文件 可 读 ， 如 果 没 有 或 者 打开 的 文件 已 经 读 完 ， 这 个 函数 会 从 输入 队列 中 


@@ TFRecord 格式 在 7.1 节 中 有 介绍 。 
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出 队 一 个 文件 并 从 这 个 文件 中 读 取 数 据 。 

通过 设置 shuffle 参数 , tftrain.string_input_producer 函数 支持 随机 打 乱 文件 列表 中 文件 
出 队 的 顺序 。 当 shuffle 参数 为 True 时 ,文件 在 加 入 队列 之 前 会 被 打 乱 顺序 ， 所 以 出 队 的 顺 
序 也 是 随机 的 。 随 机 打 乱 文件 顺序 以 及 加 入 输入 队列 的 过 程 会 跑 在 一 个 单独 的 线程 上 ， 这 
样 不 会 影响 获取 文件 的 速度 。tftrain.string input producer 生成 的 输入 队列 可 以 同时 被 多 个 
文件 读 取 线程 操作 ， 而 且 输 入 队列 会 将 队列 中 的 文件 均匀 地 分 给 不 同 的 线程 ， 不 出 现 有 些 
文件 被 处 理 过 多 次 而 有 些 文件 还 没有 被 处 理 过 的 情况 。 

当 一 个 输入 队列 中 的 所 有 文件 都 被 处 理 完 后 ， 它 会 将 初始 化 时 提供 的 文件 列表 中 的 文 
件 全 部 重新 加 入 队列 .tftrain.string_ input producer 函数 可 以 设置 num_epochs 参数 来 限制 加 
载 初始 文件 列表 的 最 大 轮 数 。 当 所 有 文件 都 已 经 被 使 用 了 设 定 的 轮 数 后 ， 如 果 继 续 尝试 读 
取 新 的 文件 , 输入 队列 会 报 OutOfRange 的 错误 。 在 测试 神经 网 络 模型 时 ， 因 为 所 有 测试 数 
据 只 需要 使 用 一 次 ， 所 以 可 以 将 num_epochs 参数 设置 为 1。 这 样 在 计算 完 一 轮 之 后 程序 将 
自动 停止 。 在 展示 tftrain.match_filenames_once 和 tftrain.string input producer 函数 的 使 用 
方法 之 前 ， 下 面 先 给 出 一 个 简单 的 程序 来 生成 样 例 数据 。 
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程序 运行 之 后 ,在 指定 的 目录 下 将 生成 两 个 文件 : /path/to/data.tfrecords-00000-of-00002 
和 /path/to/data.tfrecords-00001-of-00002。 每 一 个 文件 中 存储 了 两 个 样 例 。 在 生成 了 样 例 数 
据 之 后 ， 以 下 代码 展示 了 tftrain.match_filenames_once 函数 和 tf.train.string_input_producer 
函数 的 使 用 方法 。 
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上 面 的 打印 将 输出 : 





在 不 打 乱 文件 列表 的 情况 下 ， 会 依次 读 出 样 例 数 据 中 的 每 一 个 样 例 。 而 且 当 所 有 样 例 
都 被 读 完 之 后 ， 程 序 会 自动 从 头 开 始 。 如 果 限 制 num_epochs 为 1， 那 么 程序 将 会 报错 : 





7.3.3 ”组合 训练 数据 (batching ) 


在 7.3.2 小 节 中 已 经 介绍 了 如 何 从 文件 列表 中 读 取 单 个 样 例 ， 将 这 些 单个 样 例 通过 7.2 
节 中 介绍 的 预 处 理 方法 进行 处 理 ， 就 可 以 得 到 提供 给 神经 网 络 输入 层 的 训练 数据 了 。 在 第 
4 章 介绍 过 ， 将 多 个 输入 样 例 组 织 成 一 个 batch 可 以 提高 模型 训练 的 效率 。 所 以 在 得 到 单个 
样 例 的 预 处 理 结果 之 后 ， 还 需要 将 它们 组 织 成 batch， 然 后 再 提供 给 神经 网 络 的 输入 层 。 
TensorFlow 提供 了 tftrain.batch 和 tftrain.shuffle batch 函数 来 将 单个 的 样 例 组 织 成 batch 的 
形式 输出 。 这 两 个 函数 都 会 生成 一 个 队列 ， 队 列 的 入 队 操作 是 生成 单个 样 例 的 方法 ， 而 每 
次 出 队 得 到 的 是 一 个 batch 的 样 例 。 它 们 唯一 的 区 别 在 于 是 否 会 将 数据 顺序 打 乱 。 以 下 代 
码 展示 了 这 两 个 函数 的 使 用 方法 。 
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下 面 一 段 代码 展示 了 tftrain.shuffle_batch 函数 的 使 用 方法 。 


让 train.batch 函数 和 tftrain.shuffle batch 函数 除了 可 以 将 单个 训练 数据 整理 成 输入 
batch， 也 提供 了 并 行 化 处 理 输入 数据 的 方法 。tftrain.batch 函数 和 tftrain.shuffle_batch 函数 
并 行 化 的 方式 一 致 ， 所 以 在 本 小 节 中 仅 以 应 用 得 更 多 的 萎 train.shuffle_batch 函数 为 例 。 通 
过 设置 tftrain.shuffle batch 函数 中 的 num_threads 参数 , 可 以 指定 多 个 线程 同时 执行 入 队 操 
作 。tftrain.shuffle batch 函数 的 入 队 操 作 就 是 数据 读 取 以 及 预 处 理 的 过 程 。 当 num_threads 
参数 大 于 1 时 ， 多 个 线程 会 同时 读 取 一 个 文件 中 的 不 同样 例 并 进行 预 处 理 。 如 果 需 要 多 个 
线程 处 理 不 同文 件 中 的 样 例 时 ， 可 以 使 用 tttrain.shuffle batch join 函数 ”。 此 函数 会 从 输入 
文件 队列 中 获取 不 同 的 文件 分 配给 不 同 的 线程 。 一 般 来 说 , 输入 文件 队列 是 通过 7.3.2 中 介 
绍 的 tftrain.string input producer 函数 生成 的 。 这 个 函数 会 平均 分 配 文件 以 保证 不 同文 件 中 
的 数据 会 被 尽量 平均 地 使 用 。 


Q@ 如 果 不 需 要 随机 打 乱 输入 数据 顺序 ， 可 以 使 用 给 train.batch_join 函数 完成 类 似 功能 。 
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tftrain.shuffle batch 函数 和 tftrain.shuffle_ batch join 函数 都 可 以 完成 多 线程 并 行 的 方 
式 来 进行 数据 预 处 理 ， 但 它们 各 有 优 劣 。 对 于 tftrain.shuffle_batch 函数 ， 不 同 线程 会 读 取 
同一 个 文件 。 如 果 一 个 文件 中 的 样 例 比较 相似 〈 比 如 都 属于 同一 个 类 别 )， 那 么 神经 网 络 的 
训练 效果 有 可 能 会 受到 影响 。 所 以 在 使 用 给 train.shuffle_batch 函数 时 ， 需 要 尽量 将 同一 个 
TFRecord 文件 中 的 样 例 随机 打 乱 。 而 使 用 tftrain.shuffle batch join 函数 时 ， 不 同 线程 会 读 
取 不 同文 件 。 如 果 读 取 数 据 的 线程 数 比 总 文件 数 还 大 ， 那 么 多 个 线程 可 能 会 读 取 同 一 个 文 
件 中 相近 部 分 的 数据 。 而 且 多 个 线程 读 取 多 个 文件 可 能 导致 过 多 的 硬盘 寻 址 ， 从 而 使 得 读 
取 效 率 降低 。 不 同 的 并 行 化 方式 各 有 所 长 ,具体 采用 哪 一 种 方法 需要 根据 具体 情况 来 确定 。 


7.3.4 输入 数据 处 理 框架 


在 前 面 的 小 节 中 已 经 介绍 了 图 7-14 所 展示 的 流程 图 中 的 所 有 步骤 。 在 这 一 小 节 将 把 这 
些 步 骤 串 成 一 个 完成 的 TensorFlow 来 处 理 输入 数据 。 以 下 代码 给 出 了 这 个 完成 的 程序 。 
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图 7-15 展示 了 以 上 代码 中 输入 数据 处 理 的 整个 流程 。 从 图 7-15 中 可 以 看 出 ， 输 入 数 
据 处 理 的 第 一 步 为 获取 存储 训练 数据 的 文件 列表 。 在 图 7-15 中 ， 这 个 文件 列表 为 {A,B,C}。 
通过 tftrain.string input producer 函数 ， 可 以 选择 性 地 将 文件 列表 中 文件 的 顺序 打 乱 ， 并 加 
入 输入 队列 。 因 为 是 否 打 乱 文 件 的 顺序 是 可 选 的 ， 所 以 在 图 中 通过 虚线 表示 。 
tftrain.string_input_producer 函数 会 生成 并 维护 一 个 输入 文件 队列 ， 不 同 线程 中 的 文件 读 取 
函数 可 以 共享 这 个 输入 文件 队列 。 在 读 取样 例 数据 之 后 ， 需 要 将 图 像 进行 预 处 理 。 图 像 预 
处 理 的 过 程 也 会 通过 tftrain.shuffle batch 提供 的 机 制 并 行 地 跑 在 多 个 线程 中 。 输 入 数据 处 
理 流程 的 最 后 通过 给 train.shuffle_batch 函数 将 处 理 好 的 单个 输入 样 例 整理 成 batch 提供 给 神 
经 网 络 的 输入 层 。 通 过 这 种 方式 ， 可 以 有 效 地 提高 数据 预 处 理 的 效率 ， 避 免 数 据 预 处 理 成 
为 神经 网 络 模型 训练 过 程 中 的 性 能 瓶颈 。 













输入 文件 队列 样 例 组 合 队列 
| 8 | 

| | pa 上 batchl 
| 

, mn/ 记 ~- batch2 
|_ 








图 7-15 输入 数据 处 理 流程 示意 图 


小 结 


本 章 通过 图 像 数 据 预 处 理 的 流程 ,介绍 了 TensorFlow 使 用 多 线程 处 理 输入 数据 的 框架 。 
虽然 本 章 以 图 像 数 据 处 理 为 例 ， 但 读者 可 以 很 容易 将 该 框架 移植 到 其 他 类 型 的 数据 预 处 理 
上 。 根 据 输 入 数据 处 理 的 步 又， 在 本章 的 三 节 中 分 别 介绍 了 TensorFlow 推荐 的 输入 数据 格 
式 、 图 像 预 处 理 算法 和 输入 数据 处 理 的 框架 。 首 先 在 7.1 节 中 介绍 了 如 何 通过 TensorFlow 
提供 的 TFRecord 格式 来 统一 不 同 格式 的 输入 数据 。 这 一 节 给 出 了 样 例 程序 将 原始 的 输入 数 
据 转化 为 Example Protocol Buffer， 并 存储 到 TFRecord 文件 中 ， 也 给 出 了 具体 代码 从 
TFRecord 文件 中 读 取 数 据 。 
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接着 7.2 节 介 绍 了 TensorFlow 中 主要 的 图 像 处 理 函 数 ， 并 给 出 了 一 个 完整 的 图 像 预 处 
理 过 程 。TensorFlow 提供 了 图 像 解码 、 图 像 大 小 调整 、 图 像 旋转 、 图 像 色彩 调整 和 图 像 标 
注 框 处 理 等 方法 。 根 据 具 体 问 题 ， 可 以 采用 其 中 的 部 分 方法 来 弱化 与 此 问题 无 关 的 因素 。 
比如 对 于 数字 手写 体 识 别 问题 ， 图 像 的 颜色 、 亮 度 等 与 识别 的 结果 无 关 ， 所 以 可 以 通过 7.2 
节 中 介绍 的 方法 来 弱化 这 些 因 素 对 最 终 分 析 结 果 的 影响 。 

最 后 7.3 节 介绍 了 TensorFlow 提供 的 多 线程 数据 预 处 理 流程 ,这 一 节 讲 解 了 TensorFlow 
通过 队列 实现 多 线程 的 机 制 ， 并 介绍 了 TensorFlow 提供 的 函数 来 进一步 支持 并 行 化 的 处 理 
输入 数据 。 在 这 一 节 中 还 给 出 了 一 个 完整 的 数据 预 处 理 流程 图 和 TensorFlow 程序 框架 。 
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第 6 章 中 讲解 了 卷 积 神 经 网 络 的 网 络 结构 ， 并 介绍 了 如 何 使 用 卷 积 神经 网 络 解决 图 像 
识别 问题 。 本 章 中 将 介绍 另外 一 种 常用 的 神经 网 络 结构 一 一 循环 神经 网 络 (recurrent neural 
network，RNN) 以 及 循环 神经 网 络 中 的 一 个 重要 结构 一 一 长 短 时 记忆 网 络 (long short-term 
memory, LSTM)。 本章 也 将 介绍 循环 神经 网 络 在 自然 语言 处 理 (natural language processing， 
NLP) 问题 以 及 时 序 分 析 问 题 中 的 应 用 ， 并 给 出 具体 的 TensorFlow 程序 来 解决 一 些 经 典 的 
问题 。 

首先 在 8.1 节 将 介绍 循环 神经 网 络 的 基本 知识 并 通过 机 器 翻译 问题 说 明 循环 神经 网 络 
是 如 何 被 应 用 的 。 这 一 节 中 将 给 出 一 个 具体 的 样 例 来 说 明 一 个 最 简单 的 循环 神经 网 络 的 前 
向 传播 时 是 如 何 工 作 的 。 然 后 在 8.2 节 中 将 介绍 循环 神经 网 络 中 最 重要 的 结构 一 一 长 短 时 
记忆 网 络 〈long short term memory, LSTM) 的 网 络 结构 。 在 这 一 节 中 将 大 致 介绍 LSTM 结 
构 中 的 主要 元 素 , 并 给 出 具体 的 TensorFlow 程序 来 实现 一 个 使 用 了 LSTM 结构 的 循环 神经 
网 络 。 接 着 在 8.3 节 中 将 介绍 一 些 常用 的 循环 神经 网 络 的 变种 。 最 后 在 8.4 节 中 将 结合 
TensorFlow 对 这 些 网 络 结构 的 支持 ， 通 过 两 个 经 典 的 循环 神经 网 络 模型 的 应 用 案例 ， 介 绍 
如 何 针对 语言 模型 和 时 序 预 测 两 个 问题 ， 设 计 和 使 用 循环 神经 网 络 。 








8.1 循环 神经 网 络 简介 ” 

循环 神经 网 络 (recurrent neural network，RNN) 源 自 于 1982 年 由 Saratha Sathasivam 
提出 的 霍 普 菲 尔 德 网 络 ?。 霍 普 菲 尔 德 网 络 因为 实现 困难 , 在 其 提出 时 并 且 没有 被 合适 地 应 
用 。 该 网 络 结构 也 于 1986 年 后 被 全 连接 神经 网 络 以 及 一 些 传统 的 机 器 学 习 算 法 所 取代 。 然 


@ 本 节 内 容 部 分 参考 了 资料 http://colah.github.io/posts/2015-08-Understanding-LSTMs/。 
@ 参见 : Sathasivam S. Logic Learning in Hopfield Networks [J]. Modern Applied Science, 2009. 
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而 ， 传 统 的 机 器 学 习 算法 非常 依赖 于 人 工 提取 的 特征 ， 使 得 基于 传统 机 器 学 习 的 图 像 识别 、 
语音 识别 以 及 自然 语言 处 理 等 问题 存在 特征 提取 的 瓶颈 。 而 基于 全 连接 神经 网 络 的 方法 也 
存在 参数 太 多 、 无 法 利用 数据 中 时 间 序 列 信息 等 问题 。 随 着 更 加 有 效 的 循环 神经 网 络 结构 
被 不 断 提 出 ， 循 环 神经 网 络 挖掘 数据 中 的 时 序 信息 以 及 语义 信息 的 深度 表达 能 力 被 充分 利 
用 ， 并 在 语音 识别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 方面 实现 了 突破 。 

循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 。 在 之 前 介绍 的 全 连接 神经 网 络 或 卷 
积 神经 网 络 模型 中 ， 网 络 结构 都 是 从 输入 层 到 隐 含 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 或 
部 分 连接 的 ， 但 每 层 之 间 的 节点 是 无 连接 的 。 考 虑 这 样 一 个 问题 ， 如 果 要 预测 句子 的 下 一 
个 单词 是 什么 ， 一 般 需 要 用 到 当前 单词 以 及 前 面 的 单词 ， 因 为 句子 中 前 后 单词 并 不 是 独立 
的 。 比 如 ， 当 前 单词 是 “很 ” 前 一 个 单词 是 “天 空 ” 那么 下 一 个 单词 很 大 概率 是 “ 蓝 ”。 
循环 神经 网 络 的 来 源 就 是 为 了 刻画 一 个 序列 当前 的 输出 与 之 前 信息 的 关系 。 从 网 络 结构 上 ， 
循环 神经 网 络 会 记忆 之 前 的 信息 ， 并 利用 之 前 的 信息 影响 后 面 结 点 的 输出 。 也 就 是 说 ， 循 
环 神经 网 络 的 隐藏 层 之 间 的 结 点 是 有 连接 的 ， 隐 藏 层 的 输入 不 仅 包 括 输入 层 的 输出 ， 还 包 
括 上 一 时 刻 隐 藏 层 的 输出 。 

图 8-1 展示 了 一 个 典型 的 循环 神经 网 络 。 对 于 循环 神经 网 络 ， 一 个 非常 重要 的 概念 就 
是 时 刻 。 循 环 神经 网 络 会 对 于 每 一 个 时 刻 的 输入 结合 当前 模型 的 状态 给 出 一 个 输出 。 从 
图 8-1 中 可 以 看 到 ， 循 环 神经 网 络 的 主体 结构 A 的 输入 除了 来 自 输入 层 关 ， 还 有 一 个 循环 
的 边 来 提供 当前 时 刻 的 状态 。 在 每 一 个 时 刻 ， 循 环 神经 网 络 的 模块 A 会 读 取 t 时 刻 的 输入 
丈 ， 并 输出 一 个 值 h。 同 时 A 的 状态 会 从 当前 步 传递 到 下 一 步 。 因 此 ， 循 环 神经 网 络 理论 
上 可 以 被 看 作 是 同一 神经 网 络 结构 被 无 限 复 制 的 结果 。 但 出 于 优化 的 考虑 ， 目 前 循环 神经 
网 络 无 法 做 到 真正 的 无 限 循环 ， 所 以 ， 现 实 中 一 般 会 将 循环 体 展开 ， 于 是 可 以 得 到 图 8-2 
所 展示 的 结构 。 


图 8-1 ”循环 神经 网 络 经 典 结构 示意 图 " 


Q@ 本 章 关 于 循环 神经 网 络 的 介绍 图 片 部 分 来 自 资料 http://colah.github.io/posts/2015-08-Understanding- LSTMs/。 
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在 图 8-2 中 可 以 更 加 清楚 的 看 到 循环 神经 网 络 在 每 一 个 时 刻 会 有 一 个 输入 六 ， 然 后 根 
据 循环 神经 网 络 当前 的 状态 4, 提 供 一 个 输出 h。 而 循环 神经 网 络 当前 的 状态 省 是 根据 上 一 
时 刻 的 状态 4 和 当前 的 输入 丈 共 同 决定 的 。 从 循环 神经 网 络 的 结构 特征 可 以 很 容易 得 出 
它 最 擅长 解决 的 问题 是 与 时 间 序 列 相关 的 。 循 环 神经 网 络 也 是 处 理 这 类 问题 时 最 自然 的 神 
经 网 络 结构 。 对 于 一 个 序列 数据 ， 可 以 将 这 个 序列 上 不 同时 刻 的 数据 依次 传 入 循环 神经 网 
络 的 输入 层 ， 而 输出 可 以 是 对 序列 中 下 一 个 时 刻 的 预测 ， 也 可 以 是 对 当前 时 刻 信 息 的 处 理 
结果 (比如 语音 识别 结果 )。 循 环 神经 网 络 要 求 每 一 个 时 刻 都 有 一 个 输入 , 但 是 不 一 定 每 个 
时 刻 都 需要 有 输出 。 在 过 去 几 年 中 , 循环 神经 网 络 已 经 被 广泛 地 应 用 在 语音 识别 、 语言 模型 、 
机 器 翻译 以 及 时 序 分 析 等 问题 上 ， 并 取得 了 巨大 的 成 功 。 





图 8-2 循环 神经 网 络 按时 间 展 开 后 的 结构 


以 机 器 翻译 为 例 来 介绍 循环 神经 网 络 是 如 何 解 决 实际 问题 的 。 循 环 神经 网 络 中 每 一 个 
时 刻 的 输入 为 需要 翻译 的 句子 中 的 单词 。 如 图 8-3 所 示 ， 需 要 翻译 的 句子 为 ABCD， 那 么 
循环 神经 网 络 第 一 段 每 一 个 时 刻 的 输入 就 分 别 是 A、B、C 和 D， 然 后 用 “_” 作 为 待 翻译 
句子 的 结束 符 。 在 第 一 段 中 ， 循 环 神经 网 络 没有 输出 。 从 结束 符 “_” 开 始 ， 循 环 神经 网 络 
进入 翻译 阶段 。 该 阶段 中 每 一 个 时 刻 的 输入 是 上 一 个 时 刻 的 输出 ， 而 最 终 得 到 的 输出 就 是 
句子 ABCD 翻译 的 结果 。 从 图 8-3 中 可 以 看 到 句子 ABCD 对 应 的 翻译 结果 就 是 XYZ, 而 Q 
是 代表 翻译 结束 的 结束 符 。 





图 8-3 ”循环 神经 网 络 实现 序列 预测 示意 图 
如 之 前 所 介绍 ， 循 环 神经 网 络 可 以 被 看 做 是 同一 神经 网 络 结构 在 时 间 序 列 上 被 复制 多 
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次 的 结果 ， 这 个 被 复制 多 次 的 结构 被 称 之 为 循环 体 。 如 何 设计 循环 体 的 网 络 结构 是 循环 神 
经 网 络 解决 实际 问题 的 关键 。 和 卷 积 神经 网 络 过 滤器 中 参数 是 共享 的 类 似 ， 在 循环 神经 网 
络 中 ， 循 环 体 网 络 结构 中 的 参数 在 不 同时 刻 也 是 共享 的 。 

8-4 展示 了 一 个 使 用 最 简单 的 循环 体 结构 的 循环 神经 网 络 ， 在 这 个 循环 体 中 只 使 用 
了 一 个 类 似 全 连接 层 的 神经 网 络 结构 。 下 面 将 通过 图 8-4 中 所 展示 的 神经 网 络 来 介绍 循环 
神经 网 络 前 向 传播 的 完整 流程 。 循 环 神经 网 络 中 的 状态 是 通过 一 个 向 量 来 表示 的 ， 这 个 向 
量 的 维度 也 称 为 循环 神经 网 络 隐 藏 层 的 大 小 , 假设 其 为 h。 从 图 8-4 中 可 以 看 出 , 循环 体 中 
的 神经 网 络 的 输入 有 两 部 分 , 一 部 分 为 上 一 时 刻 的 状态 ， 另 一 部 分 为 当前 时 刻 的 输入 样本 。 
对 于 时 间 序 列 数据 来 说 (比如 不 同时 刻 商品 的 销量 ), 每 一 时 刻 的 输入 样 例 可 以 是 当前 时 刻 
的 数值 (比如 销量 值 ); 对 于 语言 模型 来 说 , 输入 样 例 可 以 是 当前 单词 对 应 的 单词 向 量 (word 
embedding) 22 。 





8-4 使 用 单 层 全 连接 神经 网 络 作为 循环 体 的 循环 神经 网 络 结构 图 ” 


假设 输入 向 量 的 维度 为 x, 那么 图 8-4 中 循环 体 的 全 连接 层 神 经 网 络 的 输入 大 小 为 htx。 
也 就 是 将 上 一 时 刻 的 状态 与 当前 时 刻 的 输入 拼接 成 一 个 大 的 向 量 作为 循环 体 中 神经 网 络 的 
输入 ”。 因 为 该 神经 网 络 的 输出 为 当前 时 刻 的 状态 ， 于 是 输出 层 的 节点 个 数 也 为 ， 循 环 体 


Q@ 关于 单词 向 量 的 简单 介绍 可 参考 第 1 章 1.3 节 。 

@ 关于 单词 向 量 更 加 详细 的 介绍 可 以 参考 论文 : Mikolov T Sutskever I，Chen K, et al. Distributed 
Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information 
Processing Systems, 2013, 26:3111-3119. 

@ 图 中 中 间 标 有 tanh 的 小 方 框 表 示 一 个 使 用 了 tanh 作为 激活 函数 的 全 连接 神经 网 络 。 

@ 也 有 资料 中 将 会 将 上 一 时 刻 状态 对 应 的 权重 和 当前 时 刻 输入 对 应 的 权重 特意 分 开 ， 但 它们 的 实质 是 一 
样 的 。 本 节 展 示 样 例 中 为 了 方便 显示 ， 采 用 了 向 量 拼接 的 方式 ， 在 本 节 的 代码 中 为 了 方便 代码 编写 ， 
采用 了 分 开 的 方式 。 
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中 的 参数 个 数 为 (htx)xh+h 个 。 从 图 8-4 中 可 以 看 到 , 循环 体 中 的 神经 网 络 输出 不 但 提供 给 
了 下 一 时 刻 作为 状态 ， 同 时 也 会 提供 给 当前 时 刻 的 输出 。 为 了 将 当前 时 刻 的 状态 转化 为 最 
终 的 输出 ， 循 环 神经 网 络 还 需要 另外 一 个 全 连接 神经 网 络 来 完成 这 个 过 程 。 这 和 卷 积 神经 
网 络 中 最 后 的 全 连接 层 的 意义 是 一 样 的 。 类 似 的 ， 不 同时 刻 用 于 输出 的 全 连接 神经 网 络 中 
的 参数 也 是 一 致 的 。 为 了 让 读者 对 循环 神经 网 络 的 前 向 传播 有 一 个 更 加 直观 的 认识 , 图 8-5 
展示 了 一 个 循环 神经 网 络 前 向 传播 的 具体 计算 过 程 。 





8-5 ”循环 神经 网 络 的 前 向 传播 的 计算 过 程 示意 图 


在 图 8-5 中 ， 假 设 状态 的 维度 为 2， 输入 、 输 出 的 维度 都 为 1， 而 且 循环 体 中 的 全 连接 


层 中 权重 为 : 
8 02 


0.3 0.4 
0.5 0.6 


偏 置 项 的 大 小 为 bws =[0.1,_0.1] ， 用 于 输出 的 全 连接 层 权重 为 : 
fo 
“i | og 


偏 置 项 大 小 为 howpu =0.1。 那 么 在 时 刻 加， 因为 没有 上 一 时 刻 ， 所 以 将 状态 初始 化 为 


Ww = 
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[0.0]， 而 当前 的 输入 为 1， 所 以 拼接 得 到 的 向 量 为 [0,0,1]， 通 过 循环 体 中 的 全 连接 层 神经 网 
络 得 到 的 结果 为 : 

0.1 0.2 

[0,0,1]x| 03 0.4 ed nosns) -hoa 
0.5 0.6 


这 个 结果 将 作为 下 一 时 刻 的 输入 状态 ， 同 时 循环 神经 网 络 也 会 使 用 该 状态 生成 输出 。 
将 该 向 量 作为 输入 提供 给 用 于 输出 的 全 连接 神经 网 络 可 以 得 到 加 时 刻 的 最 终 输 出 : 


1.0 
[0.537,0.462]x ; | +0.1=1.56 


tanh 











使 用 时刻 的 状态 可 以 类 似 地 推导 得 出 时 刻 的 状态 为 [0.860，0.88 和 ， 而 时 刻 的 输 
出 为 2.73。 在 得 到 循环 神经 网 络 的 前 向 传播 结果 之 后 ， 可 以 和 其 他 神经 网 络 类 似 地 定义 损 
失 函 数 。 循 环 神经 网 络 唯一 的 区 别 在 于 因为 它 每 个 时 刻 都 有 一 个 输出 ， 所 以 循环 神经 网 络 
的 总 损失 为 所 有 时 刻 〔 或 者 部 分 时 刻 ) 上 的 损失 函数 的 总 和 。 以 下 代码 实现 了 这 个 简单 的 
循环 神经 网 络 前 向 传播 的 过 程 。 
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和 其 他 神经 网 络 类 似 ， 在 定义 完 损 失 函 数 之 后 ， 套 用 第 4 章 中 介绍 的 优化 框架 
TensorFlow 就 可 以 自动 完成 模型 训练 的 过 程 。 这 里 唯一 需要 特别 指出 的 是 ， 理 论 上 循环 神 
经 网 络 可 以 支持 任意 长 度 的 序列 ， 然 而 在 实际 中 ， 如 果 序 列 过 长 会 导致 优化 时 出 现 梯度 消 
散 的 问题 (the vanishing gradient problem) “， 所 以 实际 中 一 般 会 规定 一 个 最 大 长 度 ， 当 序 
列 长 度 超过 规定 长 度 之 后 会 对 序列 进行 截断 。 


8.2 ”长 短 时 记忆 网 络 (LTSM) 结构 


循环 神经 网 络 工作 的 关键 点 就 是 使 用 历史 的 信息 来 帮助 当前 的 决策 。 例 如 使 用 之 前 出 
现 的 单词 来 加 强 对 当前 文字 的 理解 。 循 环 神经 网 络 可 以 更 好 地 利用 传统 神经 网 络 结构 所 不 
能 建 模 的 信息 , 但 同时 , 这 也 带 来 了 更 大 的 技术 挑战 一 一 长 期 依赖 (long-term dependencies) 
问题 。 

在 有 些 问 题 中 ， 模 型 仅仅 需要 短期 内 的 信息 来 执行 当前 的 任务 。 比 如 预测 短语 “大 海 
的 颜色 是 蓝 色 ”中 的 最 后 一 个 单词 “ 蓝 色 ”时 ， 模 型 并 不 需要 记忆 这 个 短语 之 前 更 长 的 上 
下 文 信息 一 一 因为 这 一 旬 话 已 经 包含 了 足够 的 信息 来 预测 最 后 一 个 词 。 在 这 样 的 场景 中 ， 
相关 的 信息 和 待 预 测 的 词 的 位 置 之 间 的 间隔 很 小 ， 循 环 神经 网 络 可 以 比较 容易 地 利用 先前 
信息 。 

但 同样 也 会 有 一 些 上 下 文 场景 更 加 复杂 的 情况 。 比 如 当 模 型 试 着 去 预测 段落 “ 某 地 开 
设 了 大 量 工 厂 ， 空 气 污染 十 分 严重 …… 这 里 的 天 空 都 是 灰色 的 ”的 最 后 一 个 单词 时 ， 仅 仅 





@ 参见 : Gustavsson A, Magnuson A, Blomberg B, et al. On the difficulty of training Recurrent Neural 
Networks[J]. Computer Science, 2013. 


205 


wwaibbt.com DODODOOODODOD 


TensorFlow: 实战 Google 深度 学 习 框 架 


根据 短期 依赖 就 无 法 很 好 的 解决 这 种 问题 。 因为 只 根据 最 后 一 小 段 , 最 后 一 个 词 可 以 是 “ 蓝 
色 的 ”或 者 “灰色 的 ”。 但 如 果 模 型 需要 预测 清楚 具体 是 什么 颜色 ,就 需要 考虑 先前 提 到 但 
离 当前 位 置 较 远 的 上 下 文 信息 。 因 此 ， 当 前 预测 位 置 和 相关 信息 之 间 的 文本 间隔 就 有 可 能 
变 得 很 大 。 当 这 个 间隔 不 断 增 大 时 ， 类 似 图 8-4 中 给 出 的 简单 循环 神经 网 络 有 可 能 会 丧失 
学 习 到 距离 如 此 远 的 信息 的 能 力 。 或 者 在 复杂 语言 场景 中 ， 有 用 信息 的 间隔 有 大 有 小 、 长 
短 不 一 ， 循 环 神经 网 络 的 性 能 也 会 受到 限制 。 

长 短 时 记忆 网 络 〈long short term memory, LSTM) 的 设计 就 是 为 了 解决 这 个 问题 ， 而 
循环 神经 网 络 被 成 功 应 用 的 关键 就 是 LSTM。 在 很 多 的 任务 上 ， 采 用 LSTM 结构 的 循环 神 
经 网 络 比 标准 的 循环 神经 网 络 表 现 更 好 。 在 下 文中 将 重点 介绍 LSTM 结构 。LSTM 结构 是 
由 Sepp Hochreiter 和 Jiirgen Schmidhuber” 于 1997 年 提出 的 ， 它 是 一 种 特殊 的 循环 体 结构 。 
如 图 8-6 所 示 ， 与 单一 tanh 循环 体 结构 不 同 ，LSTM 是 一 种 拥有 三 个 “ 门 ”结构 的 特殊 网 
络 结构 。 





图 8-6 LSTM 单元 结构 示意 图 


LSTM 靠 一 些 “ 门 ”的 结构 让 信息 有 选择 性 地 影响 循环 神经 网 络 中 每 个 时 刻 的 状态 。 
所 谓 “ 门 ”的 结构 就 是 一 个 使 用 sigmoid 神经 网 络 和 一 个 按 位 做 乘法 的 操作 ， 这 两 个 操作 
合 在 一 起 就 是 一 个 “ 门 ” 的 结构 。 之 所 以 该 结构 叫做 “ 门 ” 是 因为 使 用 sigmoid 作为 激活 
函数 的 全 连接 神经 网 络 层 会 输出 一 个 0 到 1 之 间 的 数值 ， 描 述 当 前 输入 有 多 少 信息 量 可 以 
通过 这 个 结构 。 于 是 这 个 结构 的 功能 就 类 似 于 一 扇 门 ， 当 门 打 开 时 (sigmoid 神经 网 络 层 输 


GD Sepp Hochreiter Jiirgen Schmidhuber. Long short-term memory[J]. Neural Computation. 9 (8): 1735~1780,1997. 
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出 为 1 时 )， 全 部 信息 都 可 以 通过 ; 当 门 关上 时 (sigmoid 神经 网 络 层 输出 为 0 时 )， 任 何 信 
息 都 无 法 通过 。 本 节 下 面 的 篇 幅 将 介绍 每 一 个 “ 门 ” 是 如 何 工作 的 。 

为 了 使 循环 神经 网 更 有 效 的 保存 长 期 记忆 ， 图 8-6 中 “ 遗 态 门 ”和 “输入 门 ”至 关 重 
要 ， 它 们 是 LSTM 结构 的 核心 “遗忘 门 ” 的 作用 是 让 循环 神经 网 络 “ 忘 记 ” 之 前 没有 用 
的 信息 。 比 如 一 段 文 章 中 先 介绍 了 某 地 原来 是 绿 水 蓝天 ， 但 后 来 被 污染 了 。 于 是 在 看 到 被 
污染 了 之 后 ， 循 环 神经 网 络 应 该 “忘记 ”之 前 绿 水 蓝天 的 状态 。 这 个 工作 是 通过 “遗忘 门 ” 
来 完成 的 。“ 遗 态 门 ”会 根据 当前 的 输入 x、 上 一 时 刻 状态 cu 和 上 一 时 刻 输出 hj 共同 决定 
哪 一 部 分 记忆 需要 被 遗忘 。 在 循环 神经 网 络 “ 忘 记 ” 了 部 分 之 前 的 状态 后 ， 它 还 需要 从 当 
前 的 输入 补充 最 新 的 记忆 。 这 个 过 程 就 是 “输入 门 ”完成 的 。 如 图 8-6 所 示 ,“ 输 入 门 ” 会 
根据 x,、cij 和 hj 决定 哪些 部 分 将 进入 当前 时 刻 的 状态 c。 比 如 当 看 到 文章 中 提 到 环境 被 
污染 之 后 ， 模 型 需要 将 这 个 信息 写 入 新 的 状态 。 通 过 “遗忘 门 ” 和 “输入 门 ”，LSTM 结构 
可 以 更 加 有 效 的 决定 哪些 信息 应 该 被 遗忘， 哪些 信息 应 该 得 到 保留 。 

LSTM 结构 在 计算 得 到 新 的 状态 ci 后 需要 产生 当前 时 刻 的 输出 ， 这 个 过 程 是 通过 “ 输 
出 门 ” 完 成 的 。“ 输 出 门 ” 会 根据 最 新 的 状态 c、 上 一 时 刻 的 输出 hy 和 当前 的 输入 x 来 决 
定 该 时 刻 的 输出 h.。 比 如 当前 的 状态 为 被 污染 ， 那 么 “天 空 的 颜色 ”后 面 的 单词 很 可 能 就 
是 “灰色 的 ”。 

相 比 图 8-4 中 展示 的 循环 神经 网 络 ， 使 用 LSTM 结构 的 循环 神经 网 络 的 前 向 传播 是 一 
个 相对 比较 复杂 的 过 程 。 具 体 LSTM 每 个 “ 门 ” 中 的 公式 可 以 参考 论文 Long short-term 
memory， 本 节 不 再 灼 述 。 在 TensorFlow 中 ，LSTM 结构 可 以 被 很 简单 地 实现 。 以 下 代码 展 
示 了 在 TensorFlow 中 实现 使 用 LSTM 结构 的 循环 神经 网 络 的 前 向 传播 过 程 。 
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神经 网 络 ， 而 且 并 不 需要 用 户 对 LSTM 内 部 结构 有 深入 的 了 解 。 


8.3 ”循环 神经 网 络 的 变种 


在 以 上 几 节 中 已 经 完整 地 介绍 了 使 用 LSTM 结构 的 循环 神经 网 络 。 这 一 节 将 再 介绍 循 
环 神经 网 络 的 几 个 常用 变种 以 及 它们 所 解决 的 问题 ， 同 时 也 会 给 出 如 何 使 用 TensorFlow 来 


8.3.1 双 问 循环 神经 网 络 和 深层 循环 神经 网 络 


在 经 典 的 循环 神经 网 络 中 ， 状 态 的 传输 是 从 前 往 后 单 向 的 。 然 而 ， 在 有 些 问题 中 ， 当 
前 时 刻 的 输出 不 仅 和 之 前 的 状态 有 关系 ， 也 和 之 后 的 状态 相关 。 这 时 就 需要 使 用 双向 循环 
神经 网 络 (bidirectional RNN) 来 解决 这 类 问题 。 例 如 预测 一 个 语句 中 缺失 的 单词 不 仅 需 要 
根据 前 文 来 判断 ， 也 需要 根据 后 面 的 内 容 ， 这 时 双向 循环 网 络 就 可 以 发 挥 它 的 作用 。 双 向 
循环 神经 网 络 是 由 两 个 循环 神经 网 络 上 下 倒 加 在 一 起 组 成 的 。 输 出 由 这 两 个 循环 神经 网 络 
的 状态 共同 决定 。 图 8-7 展示 了 一 个 双向 循环 神经 网 络 的 结构 图 。 

从 图 8-7 中 可 以 看 到 ， 双 向 循环 神经 网 络 的 主体 结构 就 是 两 个 单 向 循环 神经 网 络 的 结 
合 。 在 每 一 个 时 刻 t， 输入 会 同时 提供 给 这 两 个 方向 相反 的 循环 神经 网 络 ， 而 输出 则 是 由 这 
两 个 单 向 循环 神经 网 络 共同 决定 。 双 向 循环 神经 网 络 的 前 向 传播 过 程 和 单 向 的 循环 神经 网 
络 十 分 类 似 ， 这 里 就 不 再 袭 述 。 更 多 关于 双向 神经 网 络 的 介绍 可 以 参考 Mike Schuster 和 
Kuldip K. Paliwal 发 表 的 论文 Bidirectional recurrent neural networks。 


人 Schuster M, Paliwal K K. Bidirectional recurrent neural networks[]]. IEEE Transactions on Signal Processing, 1997. 


208 
wwaibbt.com [0DOODOODODOO 


第 8 章 循环 神经 网 络 








8-7 双向 循环 神经 网 络 结构 示意 图 


深层 循环 神经 网 络 (deepRNN) 是 循环 神经 网 络 的 另外 一 种 变种 。 为 了 增强 模型 的 表 
达能 力 ， 可 以 将 每 一 个 时 刻 上 的 循环 体重 复 多 次 。 图 8-8 给 出 了 深层 循环 神经 网 络 的 结构 
示意 图 。 从 图 8-8 中 可 以 看 到 ， 相 比 8.1 节 中 介绍 的 循环 神经 网 络 ， 深层 循 环 神经 网 络 在 每 
一 个 时 刻 上 将 循环 体 结构 复制 了 多 次 。 和 卷 积 神经 网 络 类 似 , 每 一 层 的 循环 体 中 参数 是 一 致 
的 ， 而 不 同 层 中 的 参数 可 以 不 同 。 为 了 更 好 地 支持 深层 循环 神经 网 络 ，TensorFlow 中 提供 了 
MultiRNNCell 类 来 实现 深层 循环 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 展示 如 何 使 用 这 个 类 。 


8-8 ”深层 循环 神经 网 络 结构 示意 图 
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神经 网 络 也 支持 使 用 其 他 的 循环 


~ A 人 和 > 
t input, state) 


SESEE) 让 





1 gin 区 i 二 


从 以 上 代码 可 以 看 到 , 在 TensorFlow 中 只 需要 在 BasicLSTMCell 的 基础 上 再 封装 一 层 
MnultiRNNCell 就 可 以 非常 容易 地 实现 深层 循环 神经 网 络 了 。 


8.3.2 ”循环 神经 网 络 的 dropout 


6.4 节 介 绍 过 在 卷 积 神经 网 络 上 使 用 dropout 的 方法 。 通 过 dropout， 可 以 让 卷 积 神经 网 
络 更 加 健壮 〈robust) ”。 类 似 的 ， 在 循环 神经 网 络 中 使 用 dropout 也 有 同样 的 功能 。 而 且 ， 
类 似 卷 积 神经 网 络 只 在 最 后 的 全 连接 层 中 使 用 dropout， 循 环 神经 网 络 一 般 只 在 不 同 层 循环 
体 结 构 之 间 使 用 dropout， 而 不 在 同一 层 的 循环 体 结 构 之 间 使 用 。 也 就 是 说 从 时 刻 +7 传递 
到 时 刻 上 时， 循环 神经 网 络 不 会 进行 状态 的 dropout; 而 在 同一 个 时 刻 上 中 ， 不 同 层 循环 体 
之 间 会 使 用 dropout。 

如 图 8-9 展示 了 循环 神经 网 络 使 用 dropout 的 示意 图 。 假 设 要 从 上 2 时 刻 的 输入 xz 传 
递 到 t+7 时 刻 的 输出 w+ 那么 xz 将 首先 传 入 第 一 层 循 环 体 结构 , 这 个 过 程 会 使 用 dropout。 
但 是 从 t-2 时 刻 的 第 一 层 循环 体 结 构 传 递 到 第 一 层 的 t-17、t、t+1 时 刻 不 会 使 用 dropout。 
在 tt1 时 刻 的 第 一 层 循环 体 结 构 传 递 到 同一 时 刻 内 更 高 层 的 循环 体 结构 时 ， 会 再 次 使 用 
dropout。 


© Zaremba W, Sutskever I, Vinyals O. Recurrent Neural Network Regularization[]]. Eprint Arxiv, 2014. 


210 
wwaibbt.com DOOOOOD 


第 8 章 ”循环 神经 网 络 





AHHHT 


Zi Ztl Be Zt Tet2 
8-9 ”深层 循环 神经 网 络 使 用 dropout 示意 图 
(图 中 实 线 箭头 表示 不 使 用 dropout， 虚 线 稍 头 表 示 使 用 dropout) 


在 Tensorflow 中 ， 使 用 tftnn.rmn_celLDropoutWrapper 类 可 以 很 容易 实现 dropout 功能 。 
ncaa do TensorFlow 中 实现 带 et ibid 





8.4 ”循环 神经 网 络 样 例 应 用 


在 以 上 几 节 中 已 经 介绍 了 不 同 循环 神经 网 络 的 网 络 结构 ， 并 给 出 了 具体 的 TensorFlow 
程序 来 实现 这 些 循环 神经 网 络 的 前 向 传播 过 程 。 这 一 节 将 给 出 两 个 具体 的 循环 神经 网 络 应 
用 样 例 一 一 自然 语言 建 模 和 时 序 预测 。 在 8.4.1 小 节 中 将 简单 介绍 什么 是 自然 语言 建 模 ， 并 





Q@ 注意 这 里 定义 的 实际 上 是 节点 被 保留 的 概率 。 如 果 给 出 的 数字 为 0.9, 那么 只 有 10% 的 节点 会 被 dropout。 
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通过 TensorFlow 实现 在 Penn TreeBank (PTB) 数据 集 上 的 自然 语言 模型 。 在 8.4.2 小 节 中 
将 简单 介绍 TensorFlow 的 高 层 封 装 工 具 TFLearmn, 并 通过 TFLearn 实现 对 函数 sinx 取 值 的 
预测 。 


8.4.1 自然 语言 建 模 


简单 地 说 ， 语 言 模型 的 目的 是 为 了 计算 一 个 句子 的 出 现 概率 。 在 这 里 把 句子 看 成 是 单 
词 的 序列 ， 于 是 语言 模型 需要 计算 的 就 是 p(wi,w2,w3,…,wm)。 利 用 语言 模型 ， 可 以 确定 哪个 
单词 序列 出 现 的 可 能 性 更 大 ， 或 者 给 定 若 干 个 单词 ， 可 以 预测 下 一 个 最 可 能 出 现 的 词语 。 
举 个 音字 转换 的 例子 , 假设 输入 的 拼音 串 为 “xianzaiquna”, 它 的 输出 可 以 是 “西安 在 去 哪 ”， 
也 可 以 是 “现在 去 哪 ”% 根据 语言 常识 可 以 知道 ， 转 换 成 第 二 个 的 概率 更 高 。 语 言 模型 就 可 
以 得 到 后 者 的 概率 大 于 前 者 ， 因 此 在 大 多 数 情 况 下 转换 成 后 者 比较 合理 。 
那么 如 何 计 算 一 个 句子 的 概率 呢 ? 首先 一 个 句子 可 被 看 成 是 一 个 单词 序列 : 
S=(Wi,W2 Ww3,W4 05 ) 
其 中 m 为 句子 的 长 度 。 那 么 ， 它 的 概率 可 以 表示 为 : 
p(S)=p(Wi,w2, wa3, wa, ws,***, Wim) 
=p(wi)p(w2 |w) p(ws | ,wa) :p(w Ws wa wn-1) 


要 计算 一 个 句子 出 现 的 概率 ， 就 需要 知道 上 面 公式 中 等 式 右边 中 每 一 项 的 取 值 。 等 式 
右边 的 每 一 项 都 是 语言 模型 中 的 一 个 参数 。 一 般 来 说 ， 任 何 一 门 语 言 的 词汇 量 都 很 大 ， 词 
汇 的 组 合 更 不 计 其 数 。 为 了 估计 这 些 参数 的 取 值 ， 常 见 的 方法 有 n-gram 方法 、 决 策 树 、 最 
大 焙 模 型 、 条 件 随机 场 、 神 经 网 络 语言 模型 ， 等 等 。 本 小 节 将 先 以 其 中 最 简单 的 n-gram 模 
型 来 介绍 语言 模型 问题 以 及 评价 模型 优 劣 的 标准 。n-gram 模型 有 一 个 有 限 历 史 假设 : 当前 
单词 的 出 现 概率 仅仅 与 前 面 的 n-1 个 单词 相关 。 因 此 以 上 公式 可 以 近似 为 : 

p(S)=pwi, wa m3, wn) = TE, PO-nrl,, Wi) 

n-gram 模型 里 的 n 指 的 是 当前 单词 依赖 它 前 面 的 单词 的 个 数 。 通常 n 可 以 取 1、2、3， 
这 时 n-gram 模型 分 别称 为 unigram、bigram 和 trigram 语言 模型 。 n-gram 模型 中 需要 估计 的 
参数 为 条 件 概率 p(wi|wi_nn1,…,wi-1) 。 假 设 某 种 语言 的 单词 表 大 小 为 上 那么 n-gram 模型 
需要 估计 的 不 同 参数 数量 为 恕 。 当 郊 越 大 时 ，n-gram 模型 理论 上 越 准确 ， 但 也 越 复杂 ， 需 
要 的 计算 量 和 训练 语 料 数据 量 也 就 越 大 。 因 此 ， 最 常用 的 是 bigram， 其 次 是 unigram 和 
trigram。7 取 三 4 的 情况 非常 少 。n-gram 模型 的 参数 一 般 采 用 最 大 似 然 估 计 〈maximum 
likelihood estimation，MLE) 的 方法 计算 : 
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p(w: | Wi-ntb "Wi-1 ) = St 
C( Wi-n+1,°*", Wi-1) 

其 中 C9) 表示 单词 序列 X 在 训练 语 料 中 出 现 的 次 数 。 训 练 语 料 的 规模 越 大 ， 参 数 估计 
的 结果 越 可 靠 。 但 即使 训练 数据 的 规模 非常 大 时 ， 还 是 会 有 很 多 单词 序列 在 训练 语 料 中 没 
有 出 现 过 ， 这 就 会 导致 很 多 参数 为 0。 举 个 例子 来 说 ，IBM 使 用 了 366M 英语 语 料 训练 
trigram， 发 现 14.7% 的 trigram 和 2.2% 的 bigram 在 训练 中 没有 出 现 。 为 了 避免 因为 乘 以 0 
而 导致 整个 概率 为 0， 使 用 最 大 似 然 估 计 方 法 时 都 需要 加 入 平滑 避免 参数 取 值 为 0。 使 用 
n-gram 建立 语言 模型 的 细节 不 再 效 述 ， 感 兴趣 的 读者 可 以 看 考 书籍 Information Retrieval: 
Implementing and Evaluating Search Engines®. 

语言 模型 效果 好 坏 的 常用 评价 指标 是 复杂 度 (perplexity)。 简 单 来 说 ，perplexity 值 刻 
画 的 就 是 通过 某 一 个 语言 模型 估计 的 一 句 话 出 现 的 概率 。 比 如 当 已 经 知道 (wi,w2,w3,…,wm) 
这 句 话 出 现在 语料库 之 中 ， 那 么 通过 语言 模型 计算 得 到 的 这 句 话 的 概率 越 高 越 好 ， 也 就 是 
perplexity 值 越 小 越 好 。 计 算 perplexity 值 的 公式 如 下 : 


1 
Perplexity(S)=p(wi, wa, wa, Wm) ™ 


"| 1 
Pp(Wi, WwWw2 ,waWm) 


复杂 度 perplexity 表示 的 概念 其 实 是 平均 分 支 系数 〈average branch factor)， 即 模型 预 
测 下 一 个 词 时 的 平均 可 选择 数量 。 例 如 , 考虑 一 个 由 0~9 这 10 个 数字 随机 组 成 的 长 度 为 m 


的 序列 。 由 于 这 10 个 数字 出 现 的 概率 是 随机 的 ， 所 以 每 个 数字 出 现 的 概率 是 二 。 因此 ， 


在 任意 时 刻 ， 模 型 都 有 10 个 等 概率 的 候选 答案 可 以 选择 ， 于 是 perplexity 就 是 10 (有 10 
个 合理 的 答案 )。perplexity 的 计算 过 程 如 下 : 


Perplexity(S)= 位 + =10 
i=l — 
10 


词 时 ， 有 89 个 词 等 可 能 地 可 以 作为 下 一 个 词 的 合理 选择 。 另 一 种 常用 的 perplexity 表达 形 
式 如 下 : 





DBttcher S$, Clarke C L A, Cormack G V. Information Retrieval: Implementing and Evaluating Search 
Engines[M]. The MIT Press, 2016. 
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log( perplexity(S))= bth) ee a 

相 比 乘积 开 根 号 的 方式 ， 使 用 加 法 的 形式 可 以 加 速 计算 ， 这 也 有 效 地 避免 了 概率 为 0 
时 导致 整个 计算 结果 为 0 的 问题 。 

除了 n-gram 模型 ， 循 环 神经 网 络 也 可 以 用 来 对 自然 语言 建 模 。 考 虑 如 图 8-10 所 示 的 
循环 神经 网 络 , 每 个 时 刻 的 输入 为 一 个 句子 中 的 单词 , 而 每 个 时 刻 的 输出 为 一 个 概率 分 布 ， 
表示 句子 中 下 一 个 位 置 为 不 同 单词 的 概率 。 通 过 这 种 方式 ， 对 于 给 定 的 句子 ， 就 可 以 通过 
循环 神经 网 络 的 前 向 传播 过 程 计 算出 p(wijwm,…,wi-1)。 比 如 在 图 8-10 中 , 在 第 一 个 时 刻 输 
入 的 单词 为 “大 海 ” 而 输出 为 p(x|“ 丈 淤 ”)。 也 就 是 在 知道 第 一 个 词 为 “大 海 ” 后 ， 其 他 
不 同 单词 出 现在 下 一 个 位 置 的 概率 。 比 如 从 图 8-10 中 可 以 看 出 ，P(“ 罗 "| " 式 海 =0.8， 也 
就 是 说 “大 海 ” 之 后 的 单词 为 “的 ”的 概率 为 0.8。 

类 似 的 ， 通 过 循环 神经 网 络 可 以 求 得 概率 p(x|“ 丈 海 ”，“ 鹿 ”) 、p(x|“ 允 淤 "“ 衣 ",“ 碟 
饭 ”)、p(x|“ 克 海 ””“ 记 ”,“ 谍 镶 ”,“ 寿 ")。 于 是 也 可 以 求 得 整个 句子 “大 海 的 颜色 是 蓝 色 ” 
的 概率 ， 从 而 计算 出 这 句 话 的 perplexity 值 。 在 本 小 节 后 面 的 篇 幅 中 将 给 出 具体 的 
TensorFlow 代码 来 实现 通过 循环 神经 网 络 对 自然 语言 建 模 。 





图 8-10 ”使 用 循环 神经 网 络 实现 自然 语言 建 模 示意 图 


PTB 文本 数据 集 介绍 

PTB (Penn Treebank Dataset) 文本 数据 集 是 语言 模型 学 习 中 目前 最 广泛 使 用 的 数据 集 。 
本 小 节 将 在 PTB 数据 集 上 使 用 循环 神经 网 络 实现 语言 模型 。 在 给 出 语言 模型 代码 之 前 将 先 
简单 介绍 PTB 数据 集 的 格式 以 及 TensorFlow 对 于 PTB 数据 集 的 支持 。 首 先 ， 需 要 下 载 来 
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源 于 Tomas Mikolov 网 站 上 的 PTB 数据 。 数 据 的 下 载 地 址 为 : 
http://www. fit.vutbr.cz/~imikolov/rnnim/simple-examples.tgz 
将 下 载 下 来 的 文件 解压 之 后 可 以 得 到 如 下 文件 夹 列表 








本 书 只 需要 关心 data 文件 夹 下 的 数据 ， 对 于 其 他 文件 不 再 一 一 介绍 ， 感 兴趣 的 读者 可 
以 自行 参考 README 文件 。 在 data 文件 夹 下 总 共有 7 个 文件 ， 但 本 书 中 将 只 会 用 到 以 下 






这 三 个 数据 文件 中 的 数据 已 经 经 过 了 预 处 理 , 包含 了 10000 个 不 同 的 词语 和 语句 结束 
标记 符 (在 文本 中 就 是 换行 符 ) 以 及 标记 稀有 词语 的 特殊 符号 <unk>。 下 面 展示 了 训练 数据 
中 的 一 行 : 
mr. <unk> is chairman of <unk> mV。 the dutch publishing group 
为 了 让 使 用 PTB 数据 集 更 加 方便 ，TensorFlow 提供 了 两 个 函数 来 帮助 实现 数据 的 预 处 
理 。 首 先 ，TensorFlow 提供 了 ptb_raw_data 函数 来 读 取 PTB 的 原始 数据 ， 并 将 原始 数据 中 
的 单词 转化 为 单词 ID。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 
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从 输出 中 可 以 看 出 训练 数据 中 总 共 包 含 了 929589 个 单词 , 而 这 些 单词 被 组 成 了 一 个 非 
常 长 的 序列 。 这 个 序列 通过 特殊 的 标识 符 给 出 了 每 句 话 结束 的 位 置 。 在 这 个 数据 集中 ， 句 
子 结束 的 标识 符 ID 为 2。 

在 8.1 节 中 介绍 过 ， 虽 然 循 环 神经 网 络 可 以 接受 任意 长 度 的 序列 ， 但 是 在 训练 时 需要 
将 序列 按照 某 个 固定 的 长 度 来 截断 。 为 了 实现 截断 并 将 数据 组 织 成 batch，TensorFlow 提供 
了 ptb_iterator 函数 。 以 下 代码 展示 了 如 何 使 用 ptb_iterator 函数 。 
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图 8-11 展示 了 ptb_iterator 函数 实现 的 功能 。ptb_iterator 函数 会 将 一 个 长 序列 划分 为 
batch_ size 段 ， 其 中 batch_size 为 一 个 batch 的 大 小 。 每 次 调用 ptb_iterator 时 ， 该 函数 会 从 
每 一 段 中 读 取 长 度 为 num_step 的 子 序列 ， 其 中 num_step 为 截断 的 长 度 。 从 上 面 代 码 的 输 
出 可 以 看 到 ， 在 第 一 个 batch 的 第 一 行 中 ， 前 面 5 个 单词 的 ID 和 整个 训练 数据 中 前 5 个 单 
词 的 ID 是 对 应 的 。ptb_iterator 在 生成 batch 时 可 以 会 自动 生成 每 个 batch 对 应 的 正确 答案 ， 
这 个 对 于 每 一 个 单词 ， 它 对 应 的 正确 答案 就 是 该 单词 的 后 面 一 个 单词 。 


Batch 大 小 





按 长 度 截断 的 一 个 batch 
8-11 将 一 个 长 序列 分 成 batch 并 截断 的 操作 示意 图 


使 用 循环 神经 网 络 实现 语言 模型 
在 介绍 了 语言 模型 的 理论 和 使 用 到 的 数据 集 之 后 ， 下 面 给 出 了 一 个 完成 的 TensorFlow 
样 例 程序 来 通过 循环 神经 网 络 实现 语言 模型 。 
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Q@ 关于 更 多 关于 使 用 TensorFlow 实现 单词 向 量 的 资料 可 以 参考 TensorFlow 官方 网 站 : https://www. 
tensorflow.org/tutorials/word2vec/。 
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运行 以 上 程序 可 以 得 到 类 似 如 下 的 输出 ”: 





@ 在 TensorFlow 0.9.0 下 运行 会 提示 :“WARNING:tensorflow:<tensorflow.python.ops.rnn_cell.BasicLSTMC 
ell object at 0x7fcb4f3ae150>: Using a concatenated state is slower and will soon be deprecated. U 
se state_is_tuple=True.” 这 不 会 影响 运行 。 但 是 TensorFlow0.9.0 对 state_is_tupe=True 不 支持 ， 所 以 书 

中 没有 设置 ， 在 TensorFlow 更 高 的 版 本 中 可 以 将 state_is_tuple 参数 设置 为 True。 
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从 输出 可 以 看 出 ， 在 迭代 开始 时 perplexity 值 为 10003.783， 这 基本 相当 于 从 一 万 个 单 
词 中 随机 选择 下 一 个 单词 。 而 在 训练 结束 后 ， 在 训练 数据 上 的 perplexity 值 降低 到 了 
179.420。 这 表明 通过 训练 过 程 ， 将 选择 下 一 个 单词 的 范围 从 一 万 个 减 小 到 了 大 约 180 个 。 
通过 调整 LSTM 隐藏 层 的 节点 个 数 和 大 小 以 及 训练 迭代 的 轮 数 还 可 以 将 perplexity 值 降 到 
更 低 。 


8.4.2 ”时 间 序 列 预 测 


本 小 节 将 介绍 如 何 利用 循环 神经 网 络 来 预测 正弦 〈sin) 函数 "， 图 8-12 给 出 了 sin 函 
数 的 函数 图 像 。 在 给 出 具体 的 TensorFlow 代码 之 前 ,本 小 节 将 先 介绍 另外 一 个 对 TensorFlow 
的 高 层 封 装 一 一 TFLearn?。 和 第 6 章 中 介绍 的 TensorFlow-Slim 类 似 , 通过 使 用 TFLearn 可 


以 让 TensorFlow 代码 效率 进一步 提高 。 


10 : 
05 
0.0 

-0.5 

et B00 B00 1000 


图 8-12 ”sin 函数 曲线 


@ 本 小 节 部 分 内 容 参 考 自 : http://mourafiq.com/2016/05/15/predicting-sequences-using-rnn-in-tensorflow.html 
@ TFLearn 又 名 skflow， 它 们 是 同一 套 系统 。 
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使 用 TFLearn 自 定义 模型 


TensorFlow 的 另外 一 个 高 层 封 装 TFLearm( 集 成 在 葵 contrib.learn 里 ) 对 训练 TensorFlow 
模型 进行 了 一 些 封装 ,使 其 更 便于 使 用 。 本 小 节 将 通过 iris 数 据 集 简单 介绍 如 何 使 用 TFLearn 
实现 分 类 问题 。iris 数据 集 需 要 通过 4 个 特征 (feature) 来 分 辨 三 种 类 型 的 植物 。iris 数据 
集中 总 共 包含 了 150 个 样本 ”以 下 程序 展示 了 如 何 通 过 TFLearmn 快速 的 解决 iris 分 类 问题 。 





人 更 多 关于 iris 数据 集 的 信息 可 以 参考 : http://archive.ics.uci.edu/ml/datasets/Iris。 
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通过 以 上 程序 可 以 看 出 TFLearn 既 封装 了 一 些 常 用 的 神经 网 络 结构 ， 又 省 去 了 模型 训 
练 的 部 分 ， 这 让 TensorFlow 的 程序 可 以 变 得 更 加 简短 。 


预测 正弦 函数 
通过 TFLearn， 下 面 的 篇 幅 将 给 出 具体 的 TensorFlow 程序 来 实现 预测 正弦 函数 sin。 
为 标准 的 循环 神经 网 络 模型 预测 的 是 离散 的 数值 ， 所 以 在 程序 中 需要 将 连续 的 sin 函数 曲 
线 离散 化 。 所 谓 离散 化 就 是 在 一 个 给 定 的 区 间 [0, MAX] 内 ， 通 过 有 限 个 采样 点 模拟 一 个 连 
” 续 的 曲线 。 比 如 在 以 下 程序 中 每 隔 SAMPLE_ITERVAL 对 sin 函数 进行 一 次 采样 ， 采 样 得 
到 的 序列 就 是 sin 函数 离散 化 之 后 的 结果 。 以 下 程序 为 预测 离散 化 之 后 的 sin 函数 。 
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Q 此 处 要 求 TensorFlow0.10.0 及 以 上 版 本 。 
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从 图 8-13 中 可 以 看 出 ， 预 测 得 到 的 结果 和 真实 的 sin 函数 几乎 是 重合 的 。 也 就 是 说 通 
过 循环 神经 网 络 可 以 非常 好 地 预测 sin 函数 的 取 值 。 


@ 运行 该 程序 可 能 会 因为 TFLearn 的 版 本 而 得 到 一 些 warning, 但 这 些 warning 不 会 影响 程序 的 正常 运行 。 
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predicted 


— real_sin 





1000 


8-13 通过 循环 神经 网 络 预测 sin 函数 得 到 的 结果 
小 结 


本 章 详细 介绍 了 循环 神经 网 络 的 整体 架构 ， 并 介绍 了 循环 神经 网 络 中 最 常用 的 LSTM 
结构 。 在 本 章 中 也 给 出 了 两 个 具体 的 样 例 来 介绍 如 何 将 循环 神经 网 络 应 用 于 实际 问题 之 中 。 
首先 ， 在 本 章 的 8.1 节 中 讲解 了 什么 是 循环 神经 网 络 。 在 这 一 节 中 介绍 了 循环 神经 网 络 的 
整体 结构 ， 并 给 出 了 一 个 具体 的 样 例 来 说 明 循 环 神经 网 络 是 如 何 工作 的 。 接 着 ,在 8.2 节 
中 介绍 循环 神经 网 络 中 使 用 的 最 为 广泛 的 LSTM 结构 , 大致 介绍 了 LSTM 结构 的 主要 成 分 ， 
并 给 出 了 具体 的 TensorFlow 样 例 程 序 来 实现 使 用 了 LSTM 结构 的 循环 神经 网 络 。 然 后 , 在 
8.3 节 中 介绍 了 LSTM 结构 的 一 些 主流 变种 。 最 后 , 在 8.4 节 中 给 出 了 使 用 循环 神经 网 络 解 
决 具体 问题 的 两 个 案例 。 在 8.4.1 小 节 中 介绍 了 如 何 使 用 循环 神经 网 络 实现 自然 语言 模型 ; 
在 8.4.2 小 节 介 绍 了 通过 TensorFlow 的 高 层 封装 TFLearn 实现 时 序 预测 问题 。 
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前 面 的 章节 已 经 介绍 了 如 何 使 用 TensorFlow 实现 常用 的 神经 网 络 结构 。 在 将 这 些 神经 
网 络 用 于 实际 问题 之 前 ， 需 要 先 优 化 神经 网 络 中 的 参数 。 这 就 是 训练 神经 网 络 的 过 程 。 训 
练 神经 网 络 十 分 复杂 ， 有 时 需要 几 天 甚至 几 周 的 时 间 。 为 了 更 好 的 管理 、 调 试 和 优化 神经 
网 络 的 训练 过 程 ，TensorFlow 提供 了 一 个 可 视 化 工具 TensorBoard。TensorBoard 可 以 有 效 
地 展示 TensorFlow 在 运行 过 程 中 的 计算 图 、 各 种 指标 随 着 时 间 的 变化 趋势 以 及 训练 中 使 用 
到 的 图 像 等 信息 。 

本 章 将 详细 介绍 TensorBoard 的 使 用 方法 。 首 先 ，9.1 节 将 介绍 TensorBoard 的 基础 知 
识 ， 并 通过 TensorBoard 来 可 视 化 一 个 简单 的 TensorFlow 样 例 程 序 。 在 这 一 节 中 将 介绍 如 
何 启动 TensorBoard， 并 大 致 讲解 TensorBoard 提供 的 几 类 可 视 化 信息 。 然 后 ，9.2 节 将 介绍 
通过 TensorBoard 得 到 的 TensorFlow 计算 图 的 可 视 化 结果 。TensorFlow 计算 图 保存 了 
TensorFlow 程序 计算 过 程 的 所 有 信息 。 因 为 TensorFlow 计算 图 中 的 信息 含量 较 多 ， 所 以 
TensorBoard 设计 了 一 套 交 互 过 程 来 更 加 清晰 地 呈现 这 些 信息 。 在 这 一 节 中 将 详细 介绍 
TensorBoard 的 交互 流程 以 及 可 视 化 结果 中 提供 的 信息 。 最 后 ，9.3 节 将 详细 讲解 如 何 使 用 
TensorBoard 对 训练 过 程 进行 监控 ， 以 及 如 何 通 过 TensorFlow 指定 需要 可 视 化 的 指标 。 在 
这 一 节 中 给 出 了 完整 的 样 例 程序 介绍 如 何 得 到 可 视 化 结果 。 


9.1 TensorBoard 简介 


TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 它 可 以 通过 TensorFlow 程序 运行 过 程 中 输 
出 的 日 志文 件 可 视 化 TensorFlow 程序 的 运行 状态 。TensorBoard 和 TensorFlow 程序 跑 在 不 
同 的 进程 中 , TensorBoard 会 自动 读 取 最 新 的 TensorFlow 日 志文 件 , 并 呈现 当前 TensorFlow 
程序 运行 的 最 新 状态 。 以 下 代码 展示 了 一 个 简单 的 TensorFlow 程序 ， 在 这 个 程序 中 完成 了 
TensorBoard 日 志 输 出 的 功能 。 
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iinport tendorplon a EE We A 


# 定义 一 个 简单 的 计算 图 ， 实 现 向 量 加 法 的 操作 。 A 
inputl = tf.constant ([1.0, 2.0, 3:0], name="input1") te 
input2 = tf.Variable (tf.random uniform( I 1) A pat 
output = tf.add n{([inputi, input2], name=" 










nm 
he 






kf i 


# 生成 一 个 写 日 志 的 writer, 并 将 当前 的 TensorFlow 计算 图 写 入 日 志 。Tensorglovw 提供 了 : 
# 种 写 日 志文 件 的 API， 在 9.3 节 中 将 详细 介绍 。 

Writer ,= TE. Trarn, Si ee at Nan 倒 : 让 te graph ()) 
writer.close() 


以 上 程序 输出 了 TensorFlow 计算 图 的 信息 ， 所 以 运行 TensorBoard 时 ， 可 以 看 到 这 个 
向 量 相 加 程序 计算 图 可 视 化 之 后 的 结果 。TensorBoard 不 需要 额外 的 安装 过 程 ， 在 
TensorFlow 安装 完成 时 , TensorBoard 会 被 自动 安装 。 运 行 下 面 的 命令 可 以 启动 TensorBoard。 

# 运行 TensorBoard， ey ac 中 

tensorboard --logdir=/path/to/log 

运行 上 面 的 命令 会 启动 一 个 服务 ， 这 个 服务 的 端口 默认 为 oon 通过 浏览 器 打开 
localhost:6006， 可 以 看 到 图 9-1 所 示 的 界面 。 在 界面 的 上 方 ， 可 以 看 到 有 五 栏 ， 分 别 是 
EVENTS、IMAGES、AUDIO、GRAPHS 和 HISTOGRAMS。TensorBoard 中 每 一 栏 都 对 应 
了 一 类 信息 的 可 视 化 结果 ， 在 下 面 的 章节 中 将 具体 介绍 每 一 栏 的 功能 。 如 图 9-1 所 示 ， 打 
开 TensorBoard 界面 会 默认 进入 EVENTS 栏 。 因 为 上 面 的 程序 没有 输出 任何 由 EVENTS 栏 
可 视 化 的 信息 ， 所 以 这 个 界面 显示 的 是 “No scalar data was found.”( 没 有 发 现 标量 数据 )。 
点 击 进 入 GRAPHS 栏 , 可 以 看 到 上 面 程序 TensorFlow 计算 图 的 可 视 化 结果 。 图 9-2 展示 了 
这 个 TensorFlow 计算 图 的 可 视 化 结果 。9.2 节 将 详细 介绍 如 何 理解 TensorFlow 计算 图 的 可 
视 化 结果 中 提供 的 信息 。 





Reis No scaler data was found 
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图 9-1 TensorBoard 默认 栏 界面 


@ 使 用 --port 参数 可 以 改变 启动 服务 的 端口 。 
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图 9-2 使 用 TensorBoard 可 视 化 向 量 相 加 程序 TensorFlow 计算 图 的 结果 


9.2 TensorFlow 计算 图 可 视 化 


在 图 9-2 中 给 出 了 一 个 TensorFlow 计算 图 的 可 视 化 效果 图 。 然 而 ， 从 TensorBoard 可 
视 化 结果 中 可 以 获取 的 信息 远 不 止 图 9-2 中 所 示 的 这 些 。 这 一 节 将 详细 介绍 如 何 更 好 地 利 
用 TensorFlow 计算 图 的 可 视 化 结果 。 首 先 ，9.2.1 小 节 将 介绍 通过 TensorFlow 节点 的 命名 
室 间 整理 TensorBoard 可 视 化 得 到 的 TensorFlow 计算 图 。 在 第 3 章 中 介绍 过 ，TensorFlow 
会 将 所 有 的 计算 以 图 的 形式 组 织 起 来 。TensorBoard 可 视 化 得 到 的 图 并 不 仅 是 将 TensorFlow 
计算 图 中 的 节点 和 边 直接 可 视 化 ， 它 会 根据 每 个 TensorFlow 计算 节点 的 命名 空间 来 整理 可 
视 化 得 到 的 效果 图 ， 使 得 神经 网 络 的 整体 结构 不 会 被 过 多 的 细节 所 淹没 。 除 了 显示 
TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 节点 上 的 其 他 信息 。 
然后 ，9.2.2 小 节 将 详细 介绍 如 何 从 可 视 化 结果 中 获取 TensorFlow 计算 图 中 的 这 些 信 息 。 


9.2.1 命名 空间 与 TensorBoard 图 上 节点 


在 9.1 节 给 出 的 样 例 程 序 中 只 定义 了 一 个 加 法 操作 ,然而 从 图 9-2 中 可 以 看 到 , 将 这 个 
TensorFlow 计算 图 可 视 化 得 到 的 效果 图 上 却 有 八 个 节点 。 除 去 声明 标量 、 常 量 所 产生 的 节 
点 ， 变 量 的 初始 化 过 程 也 会 产生 新 的 计算 节点 。 更 重要 的 是 ， 这 些 节点 的 排列 可 能 会 比较 
乱 ， 这 导致 主要 的 计算 节点 可 能 被 埋没 在 大 量 信息 量 不 大 的 节点 中 ， 使 得 可 视 化 得 到 的 效 
果 图 很 难 理解 。 比 如 在 图 9-2 中 ，TensorFlow 中 定义 的 加 法 运算 所 代表 的 节点 只 显示 在 了 
右 侧 一 个 较 小 的 区 域 ， 基 本 上 被 变量 初始 化 的 操作 所 埋没 。 可 以 想象 ， 一 个 复杂 的 神经 网 
络 模型 所 对 应 的 TensorFlow 计算 图 会 比 9.1 节 中 简单 的 向 量 加 法 样 例 程序 的 计算 图 复杂 很 
多 ， 那 么 没有 经 过 整理 得 到 的 可 视 化 效果 图 并 不 能 帮助 很 好 地 理解 神经 网 络 模型 的 结构 。 

为 了 更 好 地 组 织 可 视 化 效果 图 中 的 计算 节点 ，TensorBoard 支持 通过 TensorFlow 命名 
空间 来 整理 可 视 化 效果 图 上 的 节点 。 在 TensorBoard 的 默认 视图 中 ，TensorFlow 计算 图 中 
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同一 个 命名 空间 下 的 所 有 节点 会 被 缩 略 成 一 个 节点 ， 只 有 顶层 命名 空间 中 的 节点 才 会 被 显 
示 在 TensorBoard 可 视 化 效果 图 上 。 在 5.3 节 中 已 经 介绍 过 变量 的 命名 空间 ， 以 及 如 何 通过 
世 variable_scope 函数 管理 变量 的 命名 空间 。 除 了 给 variable_scope 函数 , tf.name_scope 函数 
也 提供 了 命名 空间 管理 的 功能 。 这 两 个 函数 在 大 部 分 情况 下 是 等 价 的 ， 唯 一 的 区 别 是 在 使 









用 引 get_variable 函数 时 。 以 下 代码 简单 地 说 明了 这 两 个 函数 的 区 别 。 


A 
人 WIRE 


pi ee Er 
Ee A) 


通过 对 命名 空间 管理 ， 可 以 改进 9.1 节 中 向 量 相 加 的 样 例 代码 ， 使 得 可 视 化 得 到 的 效 
果 图 更 加 清晰 。 以 下 代码 展示 了 改进 的 方法 。 
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with ‘ctf.name scope ("input2"): 
input2 = tf.Variable (tf. random _ uniform([3]), name="input2") 
output = tf.add Ln([inputli, input2], name="add") 


Witer = tf RE tf.get default _ graph ()) 

writer.close() 

图 9-3 中 显示 了 改进 后 的 可 视 化 效果 图 。 从 图 中 可 以 看 到 ， 图 9-2 中 很 多 的 节点 都 被 
缩 略 到 了 图 9-3 中 的 input2 节点 。 这 样 TensorFlow 程序 中 定义 的 加 法 运算 被 清晰 地 展示 了 
出 来 。 需 要 查看 input2 节点 中 具体 包含 了 哪些 运算 时 ， 可 以 将 鼠标 移动 到 input2 节点 ， 并 
点 开 右 上 和 角 的 加 号 “+”"”。 图 9-4 显示 了 展开 input2 节点 之 后 的 视图 。 

















图 9-4 展开 input2 节点 的 可 视 化 效果 图 
在 input2 的 展开 图 中 可 以 看 到 图 9-2 中 数据 初始 化 相关 的 操作 都 被 整理 到 了 一 起 。 下 


面 将 给 出 一 个 样 例 程 序 来 展示 如 何 很 好 地 可 视 化 一 个 真实 的 神经 网 络 结构 图 。 本 节 将 继续 
采用 5.5 节 中 给 出 的 架构 ， 以 下 代码 给 出 了 改造 后 的 mnist_train.py 程序 。 


@ “+” 号 会 在 鼠标 移动 到 这 个 节点 时 显示 在 节点 的 右上 角 。 
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相 比 5.5 节 中 给 出 的 mnist_train.py 程序 ， 上 面 程序 最 大 的 改变 就 是 将 完成 类 似 功能 的 
计算 放 到 了 由 ttname_scope 函数 生成 的 上 下 文 管理 器 中 。 这 样 TensorBoard 可 以 将 这 些 节 
点 有 效 地 合并 , 从 而 突出 神经 网 络 的 整体 结构 。 因 为 在 mnist_inferenece.py 程序 中 已 经 使 用 
了 tvariable_scope 来 管理 变量 的 命名 空间 ， 所 以 这 里 不 需要 再 做 调整 。 图 9-5 展示 了 新 的 
MNIST 程序 的 TensorFlow 计算 图 可 视 化 得 到 的 效果 图 。 
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图 9-5 ”改进 后 的 MNIST 样 例 程序 TensorFlow 计算 图 可 视 化 效果 图 


从 图 9-5 中 可 以 看 到 ，TensorBoard 可 视 化 效果 图 很 好 的 展示 了 整个 神经 网 络 的 结构 。 
在 图 9-5 中 ，input 节点 代表 了 训练 神经 网 络 需 要 的 输入 数据 ， 这 些 输入 数据 会 提供 给 神经 
网 络 的 第 一 层 layerl。 然 后 神经 网 络 第 一 层 layerl 的 结果 会 被 传 到 第 二 层 layer2, 进 过 layer2 
的 计算 得 到 前 向 传播 的 结果 。loss_function 节点 表示 计算 损失 函数 的 过 程 , 这 个 过 程 既 依赖 
于 前 向 传播 的 结果 来 计算 交叉 烂 (layer2 到 loss_function 的 边 )， 又 依赖 于 每 一 层 中 所 定义 
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的 变量 来 计算 L2 正则 化 损失 (layerl 和 layer2 到 loss_function 的 边 )。loss_function 的 计算 
结果 会 提供 给 神经 网 络 的 优化 过 程 ， 也 就 是 图 中 train_step 所 代表 的 节点 。 综 上 所 述 ， 通 过 
TensorBoard 可 视 化 得 到 的 效果 图 可 以 对 整个 神经 网 络 的 网 络 结构 有 一 个 大 致 了 解 。 

在 图 9-5 中 可 以 发 现 节点 之 间 有 两 种 不 同 的 边 。 一 种 边 是 通过 实 线 表示 的 ， 这 种 边 刻 
画 了 数据 传输 ， 边 上 箭头 方向 表达 了 数据 传输 的 方向 。 比 如 layerl 和 layer2 之 间 的 边 表示 
了 layerl 的 输出 将 会 作为 layer2 的 输入 。 有 些 边 上 的 箭头 是 双向 的 ， 比 如 节点 Variable 和 
train_step 之 间 的 边 。 这 表明 train_step 会 修改 Variable 的 状态 , 在 这 里 也 就 是 表明 训练 过 程 
会 修改 记录 训练 迭代 轮 数 的 变量 ”。 

TensorBoard 可 视 化 效果 图 的 边 上 还 标注 了 张 量 的 维度 信息 。 图 9-6 放大 了 可 视 化 得 到 
的 效果 图 ， 从 图 中 可 以 看 出 ， 节 点 input 和 layerl 之 间 传 输 的 张 量 的 维度 为 100x784。 这 说 
明了 训练 时 提供 的 batch 大 小 为 100， 输 入 层 节 点 的 个 数 为 784。 当 两 个 节点 之 间 传 输 的 张 
量 多 于 1 个 时 ， 可 视 化 效果 图 上 将 只 显示 张 量 的 个 数 。 效 果 图 上 边 的 粗细 表示 的 是 两 个 节点 
之 间 传 输 的 标量 维度 的 总 大 小 ， 而 不 是 传输 的 标量 个 数 。 比 如 layer2 和 loss_function 之 间 虽 
然 传输 了 两 个 张 量 ， 但 其 维度 都 比较 小 ， 所 以 这 条 边 比 layerl 和 layer2 之 间 的 边 还 要 细 。 


时 


LT 














图 9-6 TensorBoard 可 视 化 效果 图 中 边 上 信息 


TensorBoard 可 视 化 效果 图 上 另外 一 种 边 是 通过 虚线 表示 的 ， 比 如 图 9-5 中 所 示 的 
moving average 和 train_step 之 间 的 边 。 虚 边 表达 了 计算 之 间 的 依赖 关系 ， 比 如 在 程序 中 ， 
通过 让 control dependencies 函数 指定 了 更 新 参数 滑动 平均 值 的 操作 和 通过 反 向 传播 更 新 变 
量 的 操作 需要 同时 进行 ， 于 是 moving_average 与 train_step 之 间 存 在 一 条 虚 边 。 

除了 手动 的 通过 TensorFlow 中 的 命名 空间 来 调整 TensorBoard 的 可 视 化 效果 图 ， 
TensorBoard 也 会 智能 地 调整 可 视 化 效果 图 上 的 节点 。TensorFlow 中 部 分 计算 节点 会 有 比较 


@ 注意 这 里 “Variable” 表 示 名 称 为 Variable 的 变量 ， 而 不 是 所 有 神经 网 络 中 的 参数 。 在 样 例 程序 中 ， 名 


称 为 Variable 的 变量 是 存储 训练 欠 代 轮 数 的 变量 。 
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TensorBoard 将 TensorFlow 计算 图 分 成 了 主 图 (Main Graph) 和 辅助 图 (Auxiliary nodes) 
两 个 部 分 来 呈现 。 在 图 9-5 中 ， 左 侧 展示 的 是 计算 图 的 主要 部 分 ， 也 就 是 主 图 ， 右 侧 展示 
的 是 一 些 单 独 列 出 来 的 节点 ， 也 就 是 辅助 图 。TensorBoard 会 自动 将 连接 比较 多 的 节点 放 在 
辅助 图 中 ， 使 得 主 图 的 结构 更 加 清晰 。 
除了 自动 的 方式 ，TensorBoard 也 支持 手工 的 方式 来 调整 可 视 化 结果 。 如 图 9-7 所 示 ， 

右键 单 击 可 视 化 效果 图 上 的 节点 会 弹出 一 个 选项 ， 这 个 选项 可 以 将 节点 加 入 主 图 或 者 从 主 
图 中 删除 。 左 键 选择 一 个 节点 并 点 击 信息 框 下 部 的 选项 也 可 以 完成 类 似 的 功能 。 图 9-8 展 
示 了 将 train_step 节点 从 主 图 中 移出 后 的 效果 ， 图 9-9 展示 了 将 Variable 节点 移入 主 图 后 的 
效果 。 注意 TensorBoard 不 会 保存 用 户 对 计算 图 可 视 化 结果 的 手工 修改 , 页 面 刷新 之 后 计算 
图 可 视 化 结果 又 会 回 到 最 初 的 样子 。 























(Cb) 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 主 图 
图 9-7 手工 将 TensorFlow 计算 图 可 视 化 效果 图 中 节点 加 入 /移出 主 图 
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9.2.2 节点 


图 9-9 将 Variable 节点 移入 主 图 后 的 效果 图 


信息 


除了 展示 TensorFlow 计算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 计算 图 上 每 
个 节点 的 基本 信息 以 及 运行 时 消耗 的 时 间 和 空间 。 本 小 节 将 进一步 讲解 如 何 通过 
TensorBoard 展现 TensorFlow 计算 图 节点 上 的 这 些 信 息 。TensorFlow 计算 节点 的 运行 时 间 
都 是 非常 有 用 的 信息 ， 它 可 以 帮助 更 加 有 针对 性 地 优化 TensorFlow 程序 ， 使 得 整个 程序 的 
运行 速度 更 快 。 使 用 TensorBoard 可 以 非常 直观 地 展现 所 有 TensorFlow 计算 节点 在 某 一 次 
运行 时 所 消耗 的 时 间 和 内 存 。 将 以 下 代码 加 入 9.2.1 小 节 中 修改 后 的 mnist_train.py 神经 网 
络 训练 部 分 ， 就 可 以 将 不 同 迭 代 轮 数 时 每 一 个 TensorFlow 计算 节点 的 运行 时 间 和 消耗 的 内 
存 写 入 TensorBoard 的 日 志文 件 中 。 


with 七 


E.Session() as sess: 


tf.initialize all Variables() -zan () 
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运行 以 上 程序 ， 并 使 用 这 个 程序 输出 的 日 志 启 动 TensorBoard， 就 可 以 可 视 化 每 个 
TensorFlow 计算 节点 在 某 一 次 运行 时 所 消耗 的 时 间 和 空间 了 。 进 入 GRAPHS 栏 后 ， 需 要 先 
选择 一 次 运行 来 查看 。 如 图 9-10 (a) 所 示 ， 点 击 页 面 左 侧 的 Session runs 选项 会 出 现 一 个 
下 拉 单 ， 在 这 个 下 拉 单 中 会 出 现 所 有 通过 train_writer.add_run_metadata 函数 记录 的 运行 数 
据 。 如 图 9-10(b) 所 示 , 选 择 一 次 运行 后 ,TensorBoard 左 侧 的 Color 栏 中 将 会 新 出 现 Compute 


time 和 Memory 这 两 个 选项 。 








(a) 选择 运行 记录 的 页 面 (b) 选择 完 运 行 记录 后 Color 栏 多 出 来 的 选项 
9-10 ”TensorBoard 运行 记录 选择 界面 
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在 Color 栏 中 选择 Compute time 可 以 看 到 在 这 次 运行 中 每 个 TensorFlow 计算 节点 的 运 
行 时 间 。 类 似 的 ， 选 择 Memory 可 以 看 到 这 次 运行 中 每 个 TensorFlow 计算 节点 所 消耗 的 内 
存 。 图 9-11 展示 了 在 第 10000 轮 和 迭代 时 ， 不同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 
图 。 图 中 颜色 越 深 的 节点 表示 时 间 消 耗 越 大 。 从 图 9-11 中 可 以 看 出 ， 代 表 训 练 神经 网 络 的 
train_step 节点 消耗 的 时 间 是 最 多 的 。 通 过 对 每 一 个 计算 节点 消耗 时 间 的 可 视 化 ， 可 以 很 容 
易 地 找到 TensorFlow 计算 图 上 的 性 能 瓶颈 , 这 大 大 方便 了 算法 优化 的 工作 。 在 性 能 调 优 时 ， 
一 般 会 选择 迭代 轮 数 较 大 时 的 数据 (比如 图 9-11 中 第 10000 轮 迭 代 时 的 数据 》 作 为 不 同 计 
算 节 点 时 间 / 空 间 消耗 的 标准 ， 因 为 这 样 可 以 减少 TensorFlow 初始 化 对 性 能 的 影响 。 
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图 9-11 第 10000 轮 和 迭代 时 不 同 TensorFlow 计算 节点 时 间 消 耗 的 可 视 化 效果 图 


在 TensorBoard 界面 左 侧 的 Color 栏 中 ， 除 了 Compute time 和 Memory， 还 有 Structure 
和 Device 两 个 选项 。 在 图 9-3 到 图 9-9 中 ， 展 示 的 可 视 化 效果 图 都 是 使 用 默认 的 Structure 
选项 。 在 这 个 视图 中 ， 灰 色 的 节点 表示 没有 其 他 节点 和 它 拥有 相同 结构 。 如 果 有 两 个 节点 
的 结构 相同 ， 那 么 它们 会 被 涂 上 相同 的 颜色 。 图 9-12 展示 了 一 个 拥有 相同 结构 节点 的 卷 积 
神经 网 络 可 视 化 得 到 的 效果 图 。 在 图 9-12 中 ， 两 个 卷 积 层 的 结构 是 一 样 的 ， 所 以 他 们 都 被 
涂 上 了 相同 的 颜色 。 最 后 ,Color 栏 还 可 以 选择 Device 选项 , 这 个 选项 可 以 根据 TensorFlow 
计算 节点 运行 的 机 器 给 可 视 化 效果 图 上 的 节点 染色 。 在 使 用 GPU 时 ,可 以 通过 这 种 方式 直 
观 地 看 到 哪些 计算 节点 被 放 到 了 GPU 上 。 图 9-13 给 出 了 一 个 使 用 了 GPU 的 TensorFlow 
计算 图 的 可 视 化 结果 。 图 9-13 中 深 灰 色 的 节点 表示 对 应 的 计算 放 在 了 GPU 上 , 浅 灰 色 的 
节点 表示 对 应 的 计算 放 在 了 CPU 上 。 具 体 如 何 使 用 GPU 将 在 第 10 章 介绍 。 
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图 9-12 有 相同 结构 节点 的 卷 积 神经 网 络 计 算 图 在 Structure 选项 下 的 可 视 化 效果 图 





Larabe J 














图 9-13 使 用 了 GPU 的 TensorFlow 计算 图 的 可 视 化 结果 


当 点 击 TensorBoard 可 视 化 效果 图 中 的 节点 时 ,界面 的 右上 和 角 会 弹出 一 个 信息 卡片 显示 
这 个 节点 的 基本 信息 。 如 图 9-14 所 示 ， 当 点 击 的 节点 为 一 个 命名 空间 时 ，TensorBoard 展 
示 的 信息 有 这 个 命名 空间 内 所 有 计算 节点 的 输入 、 输 出 以 及 依赖 关系 。 虽 然 属 性 
(Attriubtes) 也 会 展示 在 卡片 中 , 但 是 在 代表 命名 空间 的 属性 下 不 会 有 任何 内 容 。 当 Session 
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runs 选择 了 某 一 次 运行 时 ， 节 点 的 信息 卡片 上 也 会 出 现 这 个 节点 运行 时 所 消耗 的 时 间 和 内 
存 等 信息 。 
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9-14 ”TensorFlow 命名 空间 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 


当 点 击 的 TensorBoard 可 视 化 效果 图 上 的 节点 对 应 一 个 TensorFlow 计算 节点 时 ， 
TensorBoard 也 会 展示 类 似 的 信息 。 图 9-15 展示 了 一 个 TensorFlow 计算 节点 所 对 应 的 信息 
卡片 。 在 TensorBoard 页 面 中 ， 空 心 的 小 椭圆 对 应 了 TensorFlow 计算 图 上 的 一 个 计算 节点 ， 
而 一 个 矩形 对 应 了 计算 图 上 的 一 个 命名 空间 。TensorFlow 计算 节点 所 对 应 的 信息 卡片 中 的 
内 容 和 命名 空间 信息 卡片 相似 ， 只 是 TensorBoard 可 以 将 TensorFlow 计算 节点 的 属性 也 展 
示 出 来 。 例如 在 图 9-15 中 ， 属 性 栏 下 显示 了 选中 的 计算 节点 是 在 什么 设备 上 运行 的 ， 以 及 
运行 这 个 计算 时 的 两 个 参数 。 
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图 9-15 TensorFlow 计算 节点 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 
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9.3 ”监控 指标 可 视 化 


在 9.2 节 中 着 重 介绍 了 通过 TensorBoard 的 GRAPHS 栏 可 视 化 TensorFlow 计算 图 的 结 
构 以 及 在 计算 图 上 的 信息 。TensorBoard 除了 可 以 可 视 化 TensorFlow 的 计算 图 ， 还 可 以 可 
视 化 TensorFlow 程序 运行 过 程 中 各 种 有 助 于 了 解 程序 运行 状态 的 监控 指标 。 在 本 节 中 将 介 
绍 如 何 利用 TensorBoard 中 其 他 栏目 可 视 化 这 些 监控 指标 。 除 了 GRAPHS 栏 ，TensorBoard 
界面 中 还 提供 了 EVENTS、IMAGES、AUDIO 和 HISTOGRAMS 四 个 栏目 来 可 视 化 其 他 的 
监控 指标 。 下 面 的 程序 展示 了 如 何 将 TensorFlow 程序 运行 时 的 信息 输出 到 TensorBoard 日 
志文 件 中 。 


import tensorflow as tf 
from tensorflow.examples.tutorials.mist import input data 


SUMMARY DIR = "/path/to/log" 
BATCH SIZE = 100 
TRAIN STEPS = 30000 


# 生成 变量 监控 信息 并 定义 生成 监控 信息 日 志 的 操作 。 其 中 var 给 出 了 需要 记录 的 张 量 ，name 给 
# 出 了 在 可 视 化 结果 中 显示 的 图 表 名 称 ， 这 个 名 称 一 般 与 变量 名 一 致 。 
def variable summaries (var, name) 
# 将 生成 监 芝 信息 的 操作 放 到 同一 个 命名 空间 下 。 
with tf.name scope('summaries'): 
” # 通过 tf,histogram summary 函数 记录 张 量 中 元 素 的 取 值 分 布 。 对 于 给 出 的 图 表 名 称 
# 和 张 量 ，tE.histogram summary 函数 会 生成 一 个 Summary protocol buffer。 
# 将 Summary 写 入 TensorBoard 日 志文 件 后 ， 可 以 在 HISTOGRRAMS 栏 下 看 到 对 应 名 
# 称 的 图 表 。 图 9-20 给 出 了 一 个 可 视 化 结果 效果 图 。 和 TensorFlow 中 其 他 操作 类 似 ， 
# tf.histogram summary 函数 不 会 立刻 被 执行 ， 只 有 当 sess.run 函数 明确 调用 这 
间 个 操作 时 ，TensorF1low 才 会 真正 生成 并 加 ummary protocol buffer。 
tf.histogram summary (name, var) 


# 计算 变量 的 平均 值 ， 并 定义 生成 平均 值 信息 日 志 的 操作 。 记 录 变量 平均 值 信 息 的 日 志 标签 名 
坦 为 'mean/' + name， 其 中 mean 为 命名 空间 ，/ 是 命名 空间 的 分 隔 符 。 从 图 9-17 

# 中 可 以 看 到 , 在 相同 命名 空间 中 的 监控 指标 会 被 整合 到 同一 栏 中 。name 则 给 出 了 当前 监 
# 控 指标 属于 哪 一 个 变量 。 

mean = tf.reduce mean (var) 

tf:scalar summary('mean/" + name, mean) 

# 计算 变量 的 标准 差 ， 并 定义 生成 其 日 志 的 操作 。 

stddev = tf.sqrt (tf.reduce mean (tf.square (var - mean))) 

tf.scalar summary('stddev/' + name, stddev) 


# 生成 一 层 全 链接 层 神 经 网 络 。 
def nn layer(input tensor, input dim, output dim, 
layer name, act=tf.nn. relu): 
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从 上 面 的 程序 可 以 看 出 ， 除 了 GRAPHS 之 外 ，Tensorboard 中 的 每 一 栏 对 应 了 
TensorFlow 中 一 种 日 志 生 成 函数 ， 表 9-1 总 结 了 这 个 对 应 关系 。 
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表 9-1 TensorFlow 日 志 生成 函数 与 TensorBoard 界面 栏 对 应 关系 。 


tf.scalar_ Summary EVENTS TensorFlow 中 标量 (scalar) 监控 数据 随 着 迭代 进行 的 变化 趋势 。 图 9-18 
中 展示 了 当前 模型 在 训练 bacth 上 的 正确 率 随 着 迭代 进行 的 变化 趋势 。 


TensorFlow 中 使 用 的 图 片 数 据 ,这 一 栏 一 般 用 于 可 视 化 当前 使 用 的 训练 
/测试 图 片 。 图 9-19 中 展示 了 例 程 序 在 最 后 一 轮训 练 时 使 用 的 图 片 。 
tfhistogram summary HISTOGRAMS TensorFlow 中 张 量 分 布 监控 数据 随 着 迭代 轮 数 的 变化 趋势 。 图 9-20 中 
运行 上 面 的 样 例 程序 并 使 用 9.1 节 中 介绍 的 方式 启动 TensorBoard， 可 以 看 到 如 图 9-16 
所 示 的 界面 。 在 这 个 页 面 上 有 4 组 不 同 的 监控 指标 ， 这 些 指 标 都 是 样 例 程序 中 通过 
ttscalar summary 函数 生成 的 。 和 变量 的 命名 空间 类 似 ，TensorBoard 也 会 根据 监控 指标 的 
名 称 进行 分 组 。 从 图 9-17 中 可 以 看 到 ， 名 称 为 mean 的 栏目 下 有 4 组 不 同 的 监控 指标 。 这 
4 个 不 同 的 指标 都 以 mean 开头 ， 并 通过 斜 线 “/” 划 分 不 同 的 命名 空间 。 不 过 和 TensorFlow 
计算 图 可 视 化 结果 不 同 的 是 ，EVENTS 栏 只 会 对 最 高 层 的 命名 空间 进行 整合 ， 单 击 展开 后 
将 看 到 该 命名 空间 下 的 所 有 监控 指标 。 

























图 9-16 使 用 TensorBoard 展示 标量 监控 信息 的 默认 页 面 
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图 9-17 展开 标量 监控 页 面 中 的 监控 内 容 后 得 到 的 页 面 
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在 每 一 个 监控 指标 的 左下 角 有 一 个 小 方 框 “ 2 ” 单 击 这 个 方 框 可 以 得 到 放大 后 的 图 片 。 
放大 后 的 效果 如 图 9-18 所 示 。 再 单 击 一 次 这 个 小 方 框 可 以 将 放大 后 的 图 表 缩 小 。 在 训练 神 
经 网 络 时 ， 通 过 TensorBoard 监控 神经 网 络 中 变量 取 值 的 变化 、 模 型 在 训练 batch 上 的 损失 
函数 大 小 以 及 学 习 率 的 变化 等 信息 可 以 更 加 方便 地 掌握 模型 的 训练 情况 。 





图 9-18 展开 某 一 项 监控 标量 时 的 放大 图 


图 9-19 展示 了 通过 TensorBoard 可 视 化 当前 轮训 练 使 用 的 图 像 信息 。 通过 这 个 界面 可 
以 大 致 看 出 数据 随机 打 乱 的 效果 。 因 为 TensorFlow 程序 和 TensorBoard 可 视 化 界面 可 以 同 


时 运行 ， 所 以 从 TensorBoard 上 可 以 实时 看 到 TensorFlow 程序 中 最 新 使 用 的 训练 或 者 测试 
图 像 。 





图 9-19 通过 TensorBoard 可 视 化 训练 图 像 
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TensorBoard 最 后 一 栏 提 供 了 对 张 量 取 值 分 布 的 可 视 化 界面 。 通 过 这 个 界面 ， 可 以 直观 
地 观察 到 不 同 层 神经 网 络 中 参数 的 取 值 变 化 。 





sa 








图 9-20 通过 TensorBoard 可 视 化 张 量 取 值 分 布 效 果 图 
小 结 


在 本 章 中 介绍 了 TensorFlow 的 可 视 化 工具 TensorBoard。TensorBoard 是 TensorFlow 目 
带 的 工具 ， 不 需要 额外 的 安装 过 程 。 虽 然 TensorBoard 和 TensorFlow 运行 在 不 同 的 进程 中 ， 
但 是 TensorBoard 会 实时 读 取 TensorFlow 程序 输出 的 日 志文 件 从 而 获取 最 新 的 TensorFlow 
程序 运行 状态 。 通 过 TensorBoard， 一 方面 可 以 更 好 地 了 解 TensorFlow 计算 图 的 结构 以 及 
每 个 TensorFlow 计算 节点 在 运行 时 的 时 间 、 内 存 消耗 。 另 一 方面 也 可 以 通过 TensorBoard 
可 视 化 神经 网 络 模型 训练 过 程 中 各 种 指标 的 变化 趋势 ， 直 观 地 了 解 神经 网 络 的 训练 情况 。 
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在 前 面 的 章节 中 介绍 了 使 用 TensorFlow 实现 各 种 深度 学 习 的 算法 。 然 而 要 将 深度 学 习 
应 用 到 实际 问题 中 ， 一 个 非常 大 的 问题 在 于 训练 深度 学 习 模 型 需要 的 计算 量 太 大 。 比 如 要 
将 第 6 章 中 介绍 的 Inception-v3 模型 在 单机 上 训练 到 78% 的 正确 率 需 要 将 近 半 年 的 时 间 ， 
这 样 的 训练 速度 是 完全 无 法 应 用 到 实际 生产 中 的 。 为 了 加 速 训练 过 程 ， 本 章 将 介绍 如 何 通 
过 TensorFlow 利用 GPU 或 /和 分 布 式 计 算 进行 模型 训练 。 

首先 ， 在 10.1 节 中 将 介绍 如 何在 TensorFlow 中 使 用 单个 GPU 进行 计算 加 速 ， 也 将 介 
绍 生 成 TensorFlow 会 话 (tf.Session) 时 的 一 些 常用 参数 。 通 过 这 些 参 数 可 以 使 调试 更 加 方 
便 而 且 程 序 的 可 扩展 性 更 好 。 然 而 ,在 很 多 情况 下 ， 单 个 GPU 的 加 速效 率 无 法 满足 训练 大 
型 深度 学 习 模 型 的 计算 量 需 求 ， 这 时 将 需要 利用 更 多 的 计算 资源 。 为 了 同时 利用 多 个 GPU 
或 者 多 台 机 器 ，10.2 节 中 将 介绍 训练 深度 学 习 模 型 的 并 行 方 式 。 然 后 ，10.3 节 将 介绍 如 何 
在 一 台 机 器 的 多 个 GPU 上 并 行 化 地 训练 深度 学 习 模 型 。 在 这 一 节 中 也 将 给 出 具体 的 
TensorFlow 样 例 程序 来 使 用 多 GPU 训练 模型 ， 并 比较 并 行 化 效率 提升 的 比率 。 最 后 在 10.4 
节 中 将 介绍 分 布 式 TensorFlow， 以 及 如 何 通 过 分 布 式 TensorFlow 训练 深度 学 习 模 型 。 在 这 
一 节 中 将 给 出 具体 的 TensorFlow 样 例 程序 来 实现 不 同 的 分 布 式 深度 学 习 训 练 模式 。 虽 然 
TensorFlow 可 以 支持 分 布 式 深度 学 习 模 型 训练 ， 但 是 它 并 不 提供 集群 创建 、 管 理 等 功能 。 
为 了 更 方便 地 使 用 分 布 式 TensorFlow，10.4 节 中 将 介绍 才 云 科技 基于 Kubernetes 容器 云 平 
台 搭 建 的 分 布 式 TensorFlow 系统 。 


10.1 TensorFlow 使 用 GPU 
TensorFlow 程序 可 以 通过 tf.device 函数 来 指定 运行 每 一 个 操作 的 设备 ， 这 个 设备 可 以 
数字 出 自 谷 歌 官方 技术 博客 https://research.googleblog.com/2016/04/announcing-tensorflow-08-now-with html。 
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是 本 地 的 CPU 或 者 GPU， 也 可 以 是 某 一 台 远 程 的 服务 器 。 但 在 本 节 中 只 关心 本 地 的 设备 。 
TensorFlow 会 给 每 一 个 可 用 的 设备 一 个 名 称 ，tfdevice 函数 可 以 通过 设备 的 名 称 来 指定 执 
行 运 算 的 设备 。 比 如 CPU 在 TensorFlow 中 的 名 称 为 /cpu:0。 在 默认 情况 下 ， 即 使 机 器 有 多 
个 CPU，TensorFlow 也 不 会 区 分 它们 ， 所 有 的 CPU 都 使 用 /cpu:0 作为 名 称 。 而 一 台 机 器 上 
不 同 GPU 的 名 称 是 不 同 的 , 第 nn 个 GPU 在 TensorFlow 中 的 名 称 为 /gpu:n。 比 如 第 一 个 GPU 
的 名 称 为 /gpu:0， 第 二 个 GPU 名 称 为 /gpu:1， 以 此 类 推 。 

TensorFlow 提供 了 一 个 快捷 的 方式 来 查看 运行 每 一 个 运算 的 设备 。 在 生成 会 话 时 ， 可 
以 通过 设置 log_ device _ placement 参数 来 打印 运行 每 一 个 运算 的 设备 。 下 面 的 程序 展示 了 如 
何 使 用 log_device placement 这 个 参数 。 






ey 


在 以 上 代码 中 ，TensorFlow 程序 生成 会 话 时 加 入 了 参数 log_device_placement=True， 
所 以 程序 会 将 运行 每 一 个 操作 的 设备 输出 到 屏幕 。 于 是 除了 可 以 看 到 最 后 的 计算 结果 之 外 ， 
还 可 以 看 到 类 似 “add: /job:localhost/replica:0/task:0/cpu:0” 这 样 的 输出 。 这 些 输 出 显示 了 执 
行 每 一 个 运算 的 设备 。 比 如 加 法 操作 add 是 通过 CPU 来 运行 的 ， 因 为 它 的 设备 名 称 中 包含 
了 /cpu:0。 

在 配置 好 GPU 环境 的 TensorFlow 中 ”， 如 果 操 作 没 有 明确 地 指定 运行 设备 ， 那 么 
TensorFlow 会 优先 选择 GPU。 比 如 将 以 上 代码 在 亚马逊 (Amazon Web Services, AWS) 的 
g2.8xlarge 实例 上 运行 时 ， 会 得 到 以 下 运行 结果 。 


Q@ 如 何 安 装 支持 GPU 的 TensorFlow 环境 可 以 参考 第 2 章 。 
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从 上 面 的 输出 可 以 看 到 在 配置 好 GPU 环境 的 TensorFlow 中 ，TensorFlow 会 自动 优先 
将 运算 放置 在 GPU 上 。 不过, 尽管 g2.8xlarge 实例 有 4 个 GPU, 在 默认 情况 下 , TensorFlow 
只 会 将 运算 优先 放 到 /gpu:0 上 。 于 是 可 以 看 见 在 上 面 的 程序 中 ， 所 有 的 运算 都 被 放 在 了 
/gpu:0 上 。 如 果 需 要 将 某 些 运算 放 到 不 同 的 GPU 或 者 CPU 上 ， 就 需要 通过 tf.device 来 手 
工 指定 。 下 面 的 程序 给 出 了 一 个 通过 给 device 手工 指定 运行 设备 的 样 例 。 
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在 以 上 代码 中 可 以 看 到 生成 常量 a 和 的 操作 被 加 载 到 了 CPU 上 , 而 加 法 操作 被 放 到 
了 第 二 个 GPU “/gpu:1” 上 。 在 TensorFlow 中 ,不 是 所 有 的 操作 都 可 以 被 放 在 GPU 上 ， 如 
果 强 行将 无 法 放 在 GPU 上 的 操作 指定 到 GPU 上 ， 那 么 程序 将 会 报错 。 以 下 代码 给 出 了 一 


个 报错 的 样 例 。 








不 同 版 本 的 TensorFlow 对 GPU 的 支持 不 一 样 ， 如 果 程 序 中 全 部 使 用 强制 指定 设备 的 
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方式 会 降低 程序 的 可 移植 性 。 在 TensorFlow 的 kernel 中 定义 了 哪些 操作 可 以 跑 在 GPU 上 。 
比如 可 以 在 variable_ops.cc 程序 中 找到 以 下 定义 。 







唱 5 二 = 9 


在 这 段 定义 中 可 以 看 到 GPU 只 在 部 分 数据 类 型 上 支持 引 Variable 操作 。 如 果 在 
TensorFlow 代码 库 中 搜索 调用 这 段 代 码 的 宏 TF_CALL _GPU_NUMBER _TYPES, 可 以 发 现 
在 GPU 上 ，tf.Variable 操作 只 支持 实数 型 (float16、float32 和 double) 的 参数 。 而 在 报错 
的 样 例 代码 中 给 定 的 参数 是 整数 型 的 ， 所 以 不 支持 在 GPU 上 和 运行。 为 避免 这 个 问题 ， 

TensorFlow 在 生成 会 话 时 可 以 指定 allow_soft_placement 参数 。 当 allow_soft_placement 参 
数 设置 为 True 时 ， 如 果 运 算 无 法 由 GPU 执行 , 那么 TensorFlow 会 自动 将 它 放 到 CPU 上 执 
行 。 以 下 代码 给 出 了 一 个 使 用 allow_soft_placement 参数 的 样 例 。 





中 TensorFlow kemel 在 Github 的 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/kernels 
目录 下 。 
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U0 


id: 0000:00:;06.0 

a_ gpu: /job:localhost/replica:0/task:0/cpu:0 

a gpu/read: /job:localhost/replica:0/ task:0/cpu:0 

a gpu/Assign; /job:localhost/replica: 0/task:0/cpu:0 

init/NoOp 1: /job:localhost/replica:0/task: Q/gpu:0 

a_cpu: /job:localhost/replica:0/task:0/cpu:0 

a cpu/read: /job:localhost/replica :0/task:0/cpu:0 

a cpu/Assign: /job:localhost/replica:0/task:0/cpu:0 

init/Noop: /job:localhost/replica:0/task:0/gpu:0 

init: /job:localhost/replica:0/task:0/gpu:0 

a gpu/initial value: /job: localhost/replica:0/task:0/gpu:0 

a cpu/initial value: /job:localhost/replica: 0O/task:0/cpu:0 

从 输出 的 日 志 中 可 以 看 到 在 生成 变量 a_gpu 时 , 无 法 放 到 GPU 上 的 运算 被 自动 调整 到 了 CPU 上 ( 比 

如 a_gpu 和 a _gpu/read)， 而 可 以 被 GPU 执行 的 命令 (比如 a_gpu/initial _value) 依旧 由 

GPU 执行 。 

虽然 GPU 可 以 加 速 TensorFlow 的 计算 ， 但 一 般 来 说 不 会 把 所 有 的 操作 全 部 放 在 GPU 
上 。 一 个 比较 好 的 实践 是 将 计算 密集 型 的 运算 放 在 GPU 上 ， 而 把 其 他 操作 放 到 CPU 上 。 
GPU 是 机 器 中 相对 独立 的 资源 ， 将 计算 放 入 或 者 转 出 GPU 都 需要 额外 的 时 间 。 而 且 GPU 
需要 将 计算 时 用 到 的 数据 从 内 存 复 制 到 GPU 设备 上 ， 这 也 需要 额外 的 时 间 。TensorFlow 可 
以 自动 完成 这 些 操作 而 不 需要 用 户 特 别处 理 ， 但 为 了 提高 程序 运行 的 速度 ， 用 户 也 需要 尽 
量 将 相关 的 运算 放 在 同一 个 设备 上 。 


10.2 ”深度 学 习 训 练 并 行 模式 


TensorFlow 可 以 很 容易 地 利用 单个 GPU 加 速 深 度 学 习 模型 的 训练 过 程 , 但 要 利用 更 多 
的 GPU 或 者 机 器 ， 需 要 了 解 如 何 并 行 化 地 训练 深度 学 习 模型 。 常 用 的 并 行 化 深度 学 习 模型 
训练 方式 有 两 种 ， 同 步 模式 和 异步 模式 。 本 节 中 将 介绍 这 两 种 模式 的 工作 方式 及 其 优 和 劣 。 

为 帮助 读者 理解 这 两 种 训练 模式 ， 本 节 首先 简单 回顾 一 下 如 何 训练 深度 学 习 模型 。 图 
10-1 展示 了 深度 学 习 模 型 的 训练 流程 图 。 深 度 学 习 模型 的 训练 是 一 个 迭代 的 过 程 。 在 每 一 
轮 迭 代 中 ， 前 向 传播 算法 会 根据 当前 参数 的 取 值 计算 出 在 一 小 部 分 训练 数据 上 的 预测 值 ， 
然后 反 向 传播 算法 再 根据 损失 函数 计算 参数 的 梯度 并 更 新 参数 。 在 并 行 化 地 训练 深度 学 习 模 
型 时 ， 不 同 设备 〈GPU 或 CPU) 可 以 在 不 同 训练 数据 上 运行 这 个 迭 代 的 过 程 ， 而 不 同 并 行 
模式 的 区 别 在 于 不 同 的 参数 更 新 方式 。 

图 10-2 展示 了 异步 模式 的 训练 流程 图 。 从 图 10-2 中 可 以 看 到 ， 在 每 一 轮 和 迭代 时 ， 不 
同 设备 会 读 取 参 数 最 新 的 取 值 ， 但 因为 不 同 设 备 读 取 参 数 取 值 的 时 间 不 一 样 ， 所 以 得 到 的 
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值 也 有 可 能 不 一 样 。 根 据 当前 参数 的 取 值 和 随机 获取 的 一 小 部 分 训练 数据 ， 不 同 设备 各 自 
运行 反 向 传播 的 过 程 并 独立 地 更 新 参数 。 可 以 简单 地 认为 异步 模式 就 是 单机 模式 复制 了 多 
份 ， 每 一 份 使 用 不 同 的 训练 数据 进行 训练 。 在 异步 模式 下 ， 不 同 设备 之 间 是 完全 独立 的 。 






选取 一 部 分 训 
练 数据 
通过 前 向 传播 
获得 预测 值 
通过 反 向 传播 
更 新 参数 


图 10-1 深度 学 习 模 型 训练 流程 图 











ee 


前 向 传播 获得 
预测 值 
反 向 传播 更 新 
参数 













前 向 传播 获得 
预测 值 


反 向 传播 更 新 
参数 


前 向 传播 获得 
预测 值 
反 向 传播 更 新 
参数 






图 10-2 异步 模式 深度 学 习 模型 训练 流程 图 


然而 使 用 异步 模式 训练 的 深度 学 习 模型 有 可 能 无 法 达到 较 优 的 训练 结果 。 图 10-3 中 给 
出 了 一 个 具体 的 样 例 来 说 明 异 步 模 式 的 问题 。 其 中 黑色 曲线 展示 了 模型 的 损失 函数 ， 黑 色 
小 球 表 示 了 在 如 时 刻 参 数 所 对 应 的 损失 函数 的 大 小 。 假 设 两 个 设备 do 和 di 在 时 间 如 同时 读 
取 了 参数 的 取 值 ， 那 么 设备 do 和 中 计 算出 来 的 梯度 都 会 将 小 黑 球 向 左 移动 。 假 设 在 时 间 和 
设备 do 已 经 完成 了 有 反 疝 传播 的 计算 并 更 新 了 参数 , 修改 后 的 参数 处 于 图 10-3 中 小 灰 球 的 位 
置 。 然 而 这 时 的 设备 di 并 不 知道 参数 已 经 被 更 新 了 ， 所 以 在 时 间 所 时， 设备 di 会 继续 将 小 
球 向 左 移动 ， 使 得 小 球 的 位 置 达到 图 10-3 中 小 白 球 的 地 方 。 从 图 10-3 中 可 以 看 到 ， 当 参 
数 被 调整 到 小 白 球 的 位 置 时 ， 将 无 法 达到 最 优点 。 


254 
wwaibbt.com DOOOOOD 


第 10 章 TensorFlow 计算 加 速 


0 


1(8) 







随机 选取 部 分 
训练 数据 


前 向 传播 获得 
预测 值 


计算 参数 更 新 平 
均值 并 更 新 参数 


图 10-4 ”同步 模式 深度 学 习 模型 训练 流程 图 

为 了 避免 更 新 不 同步 的 问题 ， 可 以 使 用 同步 模式 。 在 同步 模式 下 ， 所 有 的 设备 同时 读 

取 参 数 的 取 值 ， 并 且 当 反 向 传播 算法 完成 之 后 同步 更 新 参数 的 取 值 。 单个 设备 不 会 单独 对 
参数 进行 更 新 ， 而 会 等 待 所 有 设备 都 完成 反 向 传播 之 后 再 统 - -更 新 参数 "。 图 10-4 展示 了 





@ 不 同 的 算法 实现 会 有 略微 的 区 别 。TensorFlow 也 支持 更 加 灵活 的 同步 更 新 方式 使 计算 不 会 因为 某 个 设 
备 的 故障 而 被 卡 住 。 而 且 在 同步 模式 下 ，TensorFlow 会 保证 没有 设备 能 使 用 陈旧 的 梯度 更 新 模型 中 的 
参数 。 
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同步 模式 的 训练 过 程 。 从 图 10-4 中 可 以 看 到 ， 在 每 一 轮 迭 代 时 ， 不 同 设备 首先 统一 读 取 当 
前 参数 的 取 值 ， 并 随机 获取 一 小 部 分 数据 。 然 后 在 不 同 设备 上 运行 反 向 传播 过 程 得 到 在 各 
自 训 练 数据 上 参数 的 梯度 。 注 意 虽 然 所 有 设备 使 用 的 参数 是 一 致 的 ， 但 是 因为 训练 数据 不 
同 ， 所 以 得 到 参数 的 梯度 就 可 能 不 一 样 。 当 所 有 设备 完成 反 向 传播 的 计算 之 后 ， 需 要 计算 
出 不 同 设备 上 参数 梯度 的 平均 值 ， 最 后 再 根据 平均 值 对 参数 进行 更 新 。 

同步 模式 解决 了 异步 模式 中 存在 的 参数 更 新 问题 ， 然 而 同步 模式 的 效率 却 低 于 异步 模 
式 。 在 同步 模式 下 ， 每 一 轮 迭 代 都 需要 设备 统一 开始 、 统 一 结束 。 如 果 设 备 的 运行 速度 不 
一 致 ， 那 么 每 一 轮训 练 都 需要 等 待 最 慢 的 设备 结束 才能 开始 更 新 参数 ， 于 是 很 多 时 间 将 被 
花 在 等 待 上 。 昌 然 理论 上 异步 模式 存在 缺陷 ， 但 因为 训练 深度 学 习 模 型 时 使 用 的 随机 梯度 
下 降 本 身 就 是 梯度 下 降 的 一 个 近似 解法 , 而 且 即 使 是 梯度 下 降 也 无 法 保证 达到 全 局 最 优 值 ， 
所 以 在 实际 应 用 中 ， 在 相同 时 间 内 ， 使 用 异步 模式 训练 的 模型 不 一 定 比 同步 模式 差 。 所 以 
这 两 种 训练 模式 在 实践 中 都 有 非常 广泛 的 应 用 。 


10.3 多 GPU 并 行 


在 10.2 节 中 介绍 了 常用 的 分 布 式 深 度 学 习 模 型 训练 模式 。 这 一 节 将 给 出 具体 的 
TensorFlow 代码 , 在 一 台 机 器 的 多 个 GPU 上 并 行 训练 深度 学 习 模 型 。 因 为 一 般 来 说 一 台 机 
器 上 的 多 个 GPU 性 能 相似 ， 所 以 在 这 种 设置 下 会 更 多 地 采用 同步 模式 训练 深度 学 习 模型 。 
下 面 将 给 出 具体 的 代码 ， 在 多 GPU 上 训练 深度 学 习 模 型 解决 MNIST 问题 。 本 节 的 样 例 代 
码 将 沿用 5.5 节 中 使 用 的 代码 框架 ， 并 且 使 用 5.5 节 中 给 出 的 mnist_inference.py 程序 来 完 
成 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 给 出 了 新 的 神经 网 络 训练 程序 mnist multi_ 
gpu train.pys 


# 
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# 每 隔 一 段 时间 保 存 当 前 的 模型 。 
if step % 1000 == 0 or (step + 1) == 了 TRAINING SITEES: 
checkpoint path = os.path.join!l 
MODE SAVE PATH, MODEL NAME) 
saver.save (sess, checkpoint path, global step=Sstep) 


coord.request stop!() 
coord.join (threads) 


if nam = mA ": 
tf.app.runl() 


在 AWS 的 92.8xlarge 实例 上 运行 上 面 这 段 程序 可 以 得 到 类 似 下 面 的 结果 : 

step 10, loss 71.90 (15292.3 examples/sec; 0.007 sec/batch) 
steéep 20, loss = 37.97 (18758.3 examples/sec; 0-005 sec/batch) 
step 30, loss = 9.54 (16313.3 examples/sec; 0.006 sec/batch) 
step 40, loss = 11.84 (14199.0 examples/sec; 0.007 sec/batch) 


step 980, loss 0.66 (15034.7 examples/sec; 0.007 sec/batch) 


step 990, loss = 1.56 (16134.1 examples/sec; 0.006 sec/batch) 


在 AWS 的 g2.8xlarge 实例 上 运行 以 上 代码 可 以 同时 使 用 4 个 GPU 训练 神经 网 络 。 
图 10-5 显示 了 运行 样 例 代码 时 不 同 GPU 的 使 用 情况 。 





图 10-5 在 AWS 的 g2.8xlarge 实例 上 运行 MNIST 样 例 程 序 时 GPU 的 使 用 情况 
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因为 在 5.5 节 中 定义 的 神经 网 络 规模 比较 小 ,所 以 在 图 10-5 中 显示 的 GPU 使 用 率 不 高 。 
如 果 训 练 大 型 的 神经 网 络 模型 ，TensorFlow 将 会 占 满 所 有 用 到 的 GPU。 

图 10-6 展示 了 通过 TensorBoard 可视化 得 到 的 样 例 代 码 TensorFlow 计算 图 , 其 中 节点 
上 的 颜色 代表 了 不 同 的 设备 ， 比 如 黑色 代表 CPU、 白 色 代表 第 一 个 GPU， 等 等 。 从 图 10-5 
中 可 以 看 出 ， 训 练 神经 网 络 的 主要 过 程 被 放 到 了 GPU 0、GPU 1、GPU 2 和 GPU 3 这 4 
个 模块 中 ， 而 且 每 一 个 模块 运行 在 一 个 GPU 上 。 对 比 图 10-5 中 的 TensorFlow 计算 图 可 视 
化 结果 和 图 10-4 中 介绍 的 同步 模式 分 布 式 深度 学 习 训练 流程 图 可 以 发 现 , 这 两 个 图 的 结构 
是 非常 接近 的 。 











图 10-6 使 用 了 4 个 GPU 的 TensorFlow 计算 图 可 视 化 结果 


通过 调整 参数 N_GPU， 可 以 实验 同步 模式 下 随 着 GPU 个 数 的 增加 训练 速度 的 加 速 比 
率 。 图 10-7 展示 了 在 给 出 的 MNIST 样 例 代码 上 , 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 。 
从 图 10-7 中 可 以 看 出 ， 当 使 用 两 个 GPU 时 ,- 模型 的 训练 速度 是 使 用 一 个 GPU 的 1.92 倍 。 
也 就 是 说 当 GPU 数量 较 小 时 ， 训 练 速 度 基 本 可 以 随 着 GPU 的 数量 线性 增长 。 图 10-8 展示 
了 当 GPU 数量 增多 时 ， 训 练 速度 随 着 GPU 数量 增加 的 加 速 比 。 从 图 10-8 中 可 以 看 出 ， 当 
GPU 数量 增加 时 ， 虽 然 加 速 比 不 再 是 线性 ， 但 TensorFlow 仍然 可 以 通过 增加 GPU 数量 有 
效 地 加 速 深度 学 习 模型 的 训练 过 程 。 


GD TensorBoard 在 第 9 章 中 有 详细 介绍 。 
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梓 比 使 和 单个 GPU ， 训 络 过 遍 的 媚 比 


1 


图 10-7 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 
(此 数据 是 通过 MNIST 样 例 代码 在 AWS 的 g2.8xlarge 实例 上 测试 得 到 的 ) 


56 
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相 比 使 用 单个 GPU， 训 练 速度 的 迷 比 


图 10-8 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 ， 此 数据 来 自 谷 歌 官方 的 测试 结果 


10.4 分布 式 TensorFlow 


通过 多 GPU 并 行 的 方式 可 以 达到 很 好 的 加 速效 果 。 然 而 一 台 机 器 上 能 够 安装 的 GPU 
有 限 ， 要 进一步 提升 深度 学 习 模型 的 训练 速度 ， 就 需要 将 TensorFlow 分 布 式 运行 在 多 人 台 
器 上 。 本 节 将 介绍 如 何 编写 以 及 运行 分 布 式 TensorFlow 的 程序 。 首 先 ， 在 10.4.1 小 节 中 将 
介绍 分 布 式 TensorFlow 的 工作 原理 ,并 给 出 最 简单 的 分 布 式 TensorFlow 样 例 程序 。 在 这 一 
小 节 中 也 将 介绍 不 同 的 TensorFlow 分 布 式 方式 。 然 后 ， 在 10.4.2 小 节 中 将 给 出 两 个 完整 的 
TensorFlow 样 例 程序 来 同步 或 者 异步 地 训练 深度 学 习 模型 。 最 后 ， 在 10.4.3 小 节 中 将 总 结 
目前 原生 态 分 布 式 TensorFlow 中 的 不 足 ， 并 介绍 才 云 科技 〈Caicloud.io ) 提供 的 分 布 式 
TensorFlow 解决 方案 (TensorFlow as a Service，TaaS )。 


Q@ 具体 结果 可 以 参考 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/announcing-tensorflow- 
08-now-with.html。 
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10.4.1 分 布 式 TensorFlow 原理 


在 10.2 节 中 介绍 了 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 理论 。 本 小 节 将 具体 介绍 如 
何 使 用 TensorFlow 在 分 布 式 集群 中 训练 深度 学 习 模 型 。 以 下 代码 展示 了 如 何 创 建 一 个 最 简 
单 的 TensorFlow 集群 : 






在 以 上 代码 中 ,首先 通过 tf.train.Server.create_local_server 函数 在 本 地 建立 了 一 个 只 有 
一 台 机 器 的 TensorFlow 集群 。 然 后 在 该 集群 上 生成 了 一 个 会 话 ， 并 通过 生成 的 会 话 将 运算 
运行 在 创建 的 TensorFlow 集群 上 。 虽 然 这 只 是 一 个 单机 集群 ， 但 它 大致 反 应 了 TensorFlow 
集群 的 工作 流程 。TensorFlow 集群 通过 一 系列 的 任务 (tasks) 来 执行 TensorFlow 计算 图 中 
的 运算 。 一 般 来 说 ， 不 同 任务 跑 在 不 同 机 器 上 。 最 主要 的 例外 是 使 用 GPU 时 ， 不 同 任务 可 
以 使 用 同一 台 机 器 上 的 不 同 GPU。TensorFlow 集群 中 的 任务 也 会 被 聚合 成 工作 (jobs)， 每 
个 工作 可 以 包含 一 个 或 者 多 个 任务 。 比 如 在 训练 深度 学 习 模型 时 ， 一 台 运 行 反 向 传播 的 机 
器 是 一 个 任务 ， 而 所 有 运行 反 向 传播 机 器 的 集合 是 一 种 工作 。 

上 面 的 样 例 代码 是 只 有 一 个 任务 的 集群 。 当 一 个 TensorFlow 集群 有 多 个 任务 时 ， 需 要 
使 用 引 train.ClusterSpec 来 指定 运行 每 一 个 任务 的 机 器 。 比 如 以 下 代码 展示 了 在 本 地 运行 有 
两 个 任务 的 TensorFlow 集群 。 第 一 个 任务 的 代码 如 下 : 





264 


wwaibbt.com DODOODDOD 


第 10 章 TensorFlow 计算 加 速 





任务 启动 ， 而 且 持续 输出 failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection 
refused。 当 第 二 个 任务 启动 后 , 可 以 看 到 从 第 一 个 任务 中 会 输出 Hello from serverl! 的 结果 。 
第 二 个 任务 的 输出 如 下 : 





265 


wwaibbt.com DOODOODODOO 


TensorFlow: 实战 Google 深度 学 习 框 架 


值得 注意 的 是 第 二 个 任务 中 定义 的 计算 也 被 放 在 了 设备 /job:local/replica:0/task:0/cpu:0 
上 。 也 就 是 说 这 个 计算 将 由 第 一 个 任务 来 执行 。 从 上 面 这 个 样 例 可 以 看 到 ， 通 过 
tftrain.Servertarget 生成 的 会 话 可 以 统一 管理 整个 TensorFlow 集群 中 的 资源 。 

和 使 用 多 GPU 类 似 ，TensorFlow 支持 通过 tf.device 来 指定 操作 运行 在 哪个 任务 上 。 比 
如 将 第 二 个 任务 中 定义 计算 的 语句 改 为 以 下 代码 ， 就 可 以 看 到 这 个 计算 将 被 调度 到 
/iob:local/replica:0/task:1/cpu:0 上 面 。 


A 
A 


在 上 面 的 样 例 中 只 定义 了 一 个 工作 “local”。 但 一 般 在 训练 深度 学 习 模型 时 ， 会 定义 两 
个 工作 。 一 个 工作 专门 负责 存储 、 获 取 以 及 更 新 变量 的 取 值 ， 这 个 工作 所 包含 的 任务 统称 
为 参数 服务 器 (parameter server，ps)。 另 外 一 个 工作 负责 运行 反 向 传播 算法 来 获取 参数 梯 
度 ， 这 个 工作 所 包含 的 任务 统称 为 计算 服务 器 (worker)。 下 面 给 出 了 一 个 比较 常见 的 用 于 
训练 深度 学 习 模 型 的 TensorFlow 集群 配置 方法 。 





使 用 分 布 式 TensorFlow 训练 深度 学 习 模 型 一 般 有 两 种 方式 。 一 种 方式 叫做 计算 图 内 分 
布 式 (in-graph replication ) 。 使 用 这 种 分 布 式 训练 方式 时 ， 所 有 的 任务 都 会 使 用 一 个 
TensorFlow 计算 图 中 的 变量 (也 就 是 深度 学 习 模 型 中 的 参数 ), 而 只 是 将 计算 部 分 发 布 到 不 
同 的 计算 服务 器 上 。10.3 节 中 给 出 的 使 用 多 GPU 样 例 程 序 就 是 这 种 方式 。 多 GPU 样 例 程 
序 将 计算 复制 了 多 份 ， 每 一 份 放 到 一 个 GPU 上 进行 运算 。 但 不 同 的 GPU 使 用 的 参数 都 是 
在 一 个 TensorFlow 计算 图 中 的 。 因 为 参数 都 是 存在 同一 个 计算 图 中 ， 所 以 同步 更 新 参数 比 
较 容易 控制 。 在 10.3 节 中 给 出 的 代码 也 实现 了 参数 的 同步 更 新 。 然 而 因为 计算 图 内 分 布 式 
需要 有 一 个 中 心 节点 来 生成 这 个 计算 图 并 分 配 计 算 任 务 ， 所 以 当 数 据 量 太 大 时 ， 这 个 中 心 
节点 容易 造成 性 能 瓶颈 。 

另外 一 种 分 布 式 TensorFlow 训练 深度 学 习 模 型 的 方式 叫 计算 图 之 间 分 布 式 


@ 注意 这 里 给 出 的 世 worker 人 和 tf-ps(i) 都 是 服务 器 地 址 。 
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(between-graph replication)。 使 用 这 种 分 布 式 方式 时 ,在 每 一 个 计算 服务 器 上 都 会 创建 一 个 
独立 的 TensorFlow 计算 图 ， 但 不 同 计算 图 中 的 相同 参数 需要 以 一 种 固定 的 方式 放 到 同一 个 
参数 服务 器 上 。 TensorFlow 提供 了 tftrain.replica _device_setter 函数 来 帮助 完成 这 一 个 过 程 ， 
在 10.4.2 小 节 中 将 给 出 具体 的 样 例 。 因 为 每 个 计算 服务 器 的 TensorFlow 计算 图 是 独立 的 ， 
所 以 这 种 方式 的 并 行 度 要 更 高 。 但 在 计算 图 之 间 分 布 式 下 进行 参数 的 同步 更 新 比较 困难 。 
为 了 解决 这 个 问题 ，TensorFlow 提供 了 tftrain.SyncReplicasOptimizer 函数 来 帮助 实现 参数 
的 同步 更 新 。 这 让 计算 图 之 间 分 布 式 方式 被 更 加 广泛 地 使 用 。 在 10.4.2 小 节 中 将 给 出 使 用 计 
算 图 之 间 分 布 式 的 样 例 程序 来 实现 异步 模式 和 同步 模式 的 并 行 化 深度 学 习 模 型 训练 过 程 。 


10.4.2 ”分布 式 TensorFlow 模型 训练 


本 小 节 中 将 给 出 两 个 样 例 程序 分 别 实现 使 用 计算 图 之 间 分 布 式 (Between-graph 
replication) 完成 分 布 式 深度 学 习 模型 训练 的 异步 更 新 和 同步 更 新 。 第 一 部 分 将 给 出 使 用 计 
算 图 之 间 分 布 式 实现 异步 更 新 的 TensorFlow 程序 。 这 一 部 分 也 会 给 出 具体 的 命令 行将 该 程 
序 分布 式 的 运行 在 一 个 参数 服务 器 和 两 个 计算 服务 器 上 , 并 通过 TensorBoard 可 视 化 在 第 一 
个 计算 服务 器 上 的 TensorFlow 计算 图 。 第 二 部 分 将 给 出 计算 图 之 间 分 布 式 实现 同步 参数 更 
新 的 TensorFlow 程序 。 同 步 参 数 更 新 的 代码 大 部 分 和 异步 更 新 相似 ， 所 以 在 这 一 部 分 中 将 
重点 介绍 它们 之 间 的 不 同 之 处 。 


异步 模式 样 例 程序 


下 面 的 样 例 代码 将 仍然 采用 5.5 节 中 给 出 的 模式 ， 并 复 用 5.5 节 mnist_inference.py 程 
序 中 定义 的 前 向 传播 算法 。 以 下 代码 实现 了 异步 模式 的 分 布 式 神 经 网 络 训练 过 程 。 
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在 启动 第 一 个 计算 服务 器 之 后 ， 这 个 计算 服务 器 就 会 尝试 连接 其 他 的 服务 器 (包括 计 
算 服 务 器 和 参数 服务 器 )。 如 果 其 他 服务 器 还 没有 启动 ， 则 被 启动 的 计算 服务 器 会 报 连接 出 
错 的 问题 。 下 面 展 示 了 一 个 出 错 信息 。 






不 过 这 不 会 影响 TensorFlow 集群 的 启动 。 当 TensorFlow 集群 中 所 有 服务 器 都 被 启动 之 
后 , 每 一 个 计算 服务 器 将 不 再 报错 。 在 TensorFlow 集群 完全 启动 之 后 , 训练 过 程 将 被 执行 。 
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10-9 展示 了 第 一 个 计算 服务 器 的 TensorFlow 计算 图 。 从 图 10-9 中 可 以 看 出 ， 神 经 网 络 
中 定义 的 参数 被 放 在 了 参数 服务 器 上 (图 中 浅 灰色 节点 )， 而 反 向 传播 的 计算 过 程 则 放 在 了 
当前 的 计算 服务 器 上 《〔〈 图 中 的 深 灰 色 节点 )。 





10-9 通过 TensorBoard 可 视 化 的 分 布 式 TensorFlow 计算 
在 计算 服务 器 训练 神经 网 络 的 过 程 中 ， 第 一 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


' De 
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从 输出 的 信息 中 可 以 看 到 ， 在 第 二 个 计算 服务 器 启动 之 前 ， 第 一 个 计算 服务 器 已 经 运 
行 了 很 多 轮 迭 代 了 。 在 异步 模式 下 ， 即 使 有 计算 服务 器 没有 正常 工作 ， 参 数 更 新 的 过 程 仍 
可 继续 ， 而 且 全 局 的 迭代 轮 数 是 所 有 计算 服务 器 迭代 轮 数 的 和 。 


同步 模式 样 例 程序 


和 异步 模式 类 似 ， 下 面 给 出 的 代码 同样 也 是 基于 5.5 小 节 中 给 出 的 框架 。 该 代码 实现 
了 同步 模式 的 分 布 式 神经 网 络 训 练 过 程 。 
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和 异步 模式 类 似 , 在 不 同 机 器 上 运行 以 上 代码 就 可 以 启动 TensorFlow 集群 。 但 和 异步 
模式 不 同 的 是 ， 当 第 一 台 计 算 服 务 器 初始 化 完毕 之 后 ， 它 并 不 能 直接 更 新 参数 。 这 是 因为 
在 程序 中 要 求 每 一 次 参数 更 新 都 需要 来 自 两 个 计算 服务 器 的 梯度 。 在 第 一 个 计算 服务 器 上 ， 


可 以 看 到 与 下 面 类 似 的 输出 。 
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第 二 个 计算 服务 器 的 输出 如 下 : 






在 第 一 个 计算 服务 器 的 第 一 行 输出 中 可 以 看 到 ， 前 100 轮 迭 代 的 平均 速度 为 0.176 
sec/batch， 要 远 远 慢 于 最 后 的 平均 速度 0.042 sec/batch。 这 是 因为 在 第 一 迭代 轮 开 始 之 前 ， 
第 一 个 计算 服务 器 需要 等 待 第 二 个 计算 服务 器 执行 初始 化 的 过 程 ， 于 是 导致 前 100 轮 迭 代 
的 平均 速度 是 最 慢 的 。 这 也 反应 了 同步 更 新 的 一 个 问题 。 当 一 个 计算 服务 器 被 卡 住 时 ， 其 
他 所 有 的 计算 服务 器 都 需要 等 待 这 个 最 慢 的 计算 服务 器 。 

为 了 解决 这 个 问题 ， 可 以 调整 tftrain.SyncReplicasOptimizer 函数 中 的 replicas to _ 
aggregate 参数 。 当 replicas to_aggregate 小 于 计算 服务 器 总 数 时 ， 每 一 轮 迭 代 就 不 需要 收集 
所 有 的 梯度 ， 从 而 避免 被 最 慢 的 计算 服务 器 卡 住 。TensorFlow 也 支持 通过 调整 同步 队列 初 
始 化 操作 tftrain.SyncReplicasOptimizer get_init tokens_op 中 的 参数 来 控制 对 不 同 计算 服务 
器 之 间 的 同步 要 求 。 当 提供 给 初始 化 函数 get_init tokens_op 的 参数 大 于 0 时 ，TensorFlow 支 
持 多 次 使 用 由 同一 个 计算 服务 器 得 到 的 梯度 ， 于 是 也 可 以 缓解 计算 服务 器 性 能 瓶颈 的 问题 。 


10.4.3 ”使 用 Caicloud 运行 分 布 式 TensorFlow 


从 10.4.2 小 节 中 给 出 的 样 例 程序 可 以 看 出 ， 每 次 运行 分 布 式 TensorFlow 都 需要 登录 不 
同 的 机 器 来 启动 集群 。 这 使 得 使 用 起 来 非常 不 方便 。 当 需要 使 用 100 台 机 器 运行 分 布 式 
TensorFlow 时 ， 需 要 手动 登录 到 每 一 台 机 器 并 启动 TensorFlow 服务 ， 这 个 过 程 十 分 烦琐 。 
而 且 ， 当 某 个 服务 器 上 的 程序 死 掉 之 后 ，TensorFlow 并 不 能 自动 重启 ， 这 给 监控 工作 带 来 
了 巨大 的 难度 。 如 果 类 比 TensorFlow 与 Hadoop”， 可 以 发 现 TensorFlow 只 实现 了 相当 于 
Hadoop 中 MapReduce 的 计算 框架 ， 而 没有 提供 类 似 Yarn 的 集群 管理 工具 以 及 HDFS 的 存 
储 系统 。 为 了 降低 分 布 式 TensorFlow 的 使 用 门槛 , 才 云 科技 (Caicloud.io) 基 于 Kubemetes 容 


@ 更 多 关于 Hadoop 的 介绍 可 以 参考 其 官方 网 站 : http://hadoop.apache.org/。 
@ 更 多 关于 Kubemetes 的 介绍 可 以 参考 其 官方 网 站 : http://kubernetes.io/。 
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器 云 平台 提供 了 一 个 分 布 式 TensorFlow 平台 TensorFlow as a Service (TaaS) “。 本 节 中 将 
大 致 介绍 如 何 使 用 Caicloud 提供 的 TaaS 平台 运行 分 布 式 TensorFlow。 

从 10.4.2 小 节 中 给 出 的 代码 可 以 看 出 ,编写 分 布 式 TensorFlow 程序 需要 指定 很 多 与 模 
型 训练 无 关 的 代码 来 完成 TensorFlow 集群 的 设置 工作 ,为 了 降低 分 布 式 TensorFlow 的 学 习 
成 本 ，Caicloud 的 TensorFlow as a Service (TaaS) 平台 首先 对 TensorFlow 集群 进行 了 更 高 
层 的 封装 ， 屏 项 了 其 中 与 模型 训练 无 关 的 底层 细节 。 其 次 ，TaaS 平台 结合 了 谷歌 开源 的 容 
器 云 平 台 管理 工具 Kubemetes 来 实现 对 分 布 式 TensorFlow 任务 的 管理 和 监控 ， 并 支持 通过 
UI 设置 分 布 式 TensorFlow 任务 的 节点 个 数 、 是 否 使 用 GPU 等 信息 。 

Caicloud 的 TaaS 平台 提供 了 一 个 抽象 基 类 CaicloudDistTensorflowBase， 该 类 封装 了 分 
布 式 TensorFlow 集群 的 配置 与 启动 、 模 型 参数 共享 与 更 新 逻辑 处 理 、 计 算 节点 之 间 的 协同 
交互 以 及 训练 得 到 的 模型 和 日 志 的 保存 等 与 模型 训练 过 程 无 关 的 操作 。 用 户 只 需要 继承 该 
基 类 ， 并 实现 与 模型 训练 相关 的 函数 即 可 。 其 代码 结构 如 下 : 


import caicloud dist tensorflow bas 
Se 了 Ou 






分 别 是 build_model、get init 加 、train 和 after train。build_model 给 出 了 定 TensorFIow 
计算 图 的 接口 。 在 这 个 函数 中 ， 用 户 需 要 处 理 输 入 数据 、 定 义 深度 学 习 模 型 以 及 定义 训练 
模型 的 过 程 。get_init_fn 函数 中 可 以 定义 在 会 话 (tfSession) 生成 之 后 需要 额外 完成 的 初始 
化 工作 ， 当 没有 特殊 的 初始 化 操作 时 ， 用 户 可 以 不 用 定义 这 个 函数 。 这 个 函数 可 以 完成 模 
型 预 加 载 的 过 程 。train 函数 中 定义 的 是 每 一 轮训 练 中 需要 运行 的 操作 。Taas 会 自动 完成 从 
代 的 过 程 ， 但 用 户 需要 定义 每 一 轮 和 迭 代 中 需要 执行 的 操作 。 最 后 在 训练 结束 之 后 ， 用 户 可 
以 通过 定义 after train 来 评测 以 及 保存 最 后 得 到 的 模型 。 下 面 将 通过 TaaS 平台 实现 分 布 式 
TensorFlow 训练 过 程 来 解决 MNIST he 


import tensorflow 
from tensorflow.e; 


import caicloud dist_tensorfloW_ba 






时 BE 
RE Em ;以 尖 
ws ES 堵 Ke 4 内 


@ Taas 公有 云 服务 测试 版 将 于 2017 年 3 月 底 正 式 上 线 。 

@ Caicloud 提供 的 TaaS 平台 只 支持 TensorFlow 0.12.0 及 以 上 版 本 。 

@ 在 Caicloud 提供 的 开发 环境 中 可 以 加 载 caicloud dist_tensorflow_base 模块 。Caicloud 同时 也 提供 了 用 
于 开发 的 caicloud_dist_tensorflow_base 源 代码 及 pip 安装 包 ， 感 兴趣 的 读者 可 以 参考 才 云 科技 官网 
caicloud.io。 
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将 以 上 代码 提交 到 Caicloud 的 TaaS 平台 之 后 ,可 以 看 到 类 似 图 10-10 所 示 的 监控 页 面 。 
在 监控 页 面 中 , TaaS 提供 了 对 资源 利用 率 、 训 练 进度 、 训 练 模式 、 程 序 日 志 以 及 TensorBoard 
等 多 种 信息 的 综合 展示 ， 用 户 可 以 更 好 地 了 解 训练 的 进度 和 状态 。 因 为 篇 幅 所 限 ， 对 TaaS 
感 兴趣 的 读者 可 以 在 Caicloud 的 官方 网 站 caicloud.io 上 找到 更 多 信息 和 教程 。 
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TensorBoawrd 为 femexfioMd 癌 神化 工具 、 它 本 再 Tensorfimw 中 使 二 时 经 网 堵 可 视 亿 最 丰 出 宗 . 开 虱 
中 二 网 参 教 、 峰 扒 89 字 化 党 积 . 





10-10 ”Caicloud 提供 的 TaaS 分 布 式 TensorFlow 任务 详情 页 面 
小 结 


在 本 章 中 介绍 了 TensorFlow 如 何 通过 GPU 或 /和 分 布 式 集群 的 方式 加 速 深度 学 习 模 型 
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